800元手機電腦做網站_設計網頁建設制作_優化推廣_濟寧網絡公司
當前位置:主頁 > 新聞資訊 > 優化知識 >

濟寧網站優化如何分析網頁建立倒排文件

發表日期:2018-10-20 16:38文章編輯:木易工作室瀏覽次數: 標簽:    

正向索引:經過前面幾步的工作之后就開始提取關鍵詞了,把頁 面轉換為一個關鍵詞組合,同時記錄每一個關鍵詞在頁面上的出現頻 率、出現次數、格式、位置,這樣每一個頁面都可以記錄為一串關鍵 詞組合,其中每個關鍵詞的詞頻、格式、位置等權重信息也都記錄在 條,如圖1-10所示
圖1-10簡化的索引詞結構
倒排索引:正向索引還不能直接用于排名。假如用戶搜索關鍵詞 3,如果只用正向索引,排名程序需要掃描所有的索引中的文件,找 出包含關鍵詞3的文件,再進行相關計算。這樣一來計算無法實時返 回排名結果。所以搜索引擎會將正向索引數據庫重新構造為倒排索引, 倒排索弓I以關鍵詞為索引,如圖1-11所示。
 
圖1-11倒排索引詞結構
6•鏈接關系計算
鏈接關系計算是預處理中重要的一步。主流搜索引擎排名因素都 包含網頁之間的鏈接流信息。事先必須計算出頁面上有哪些鏈接指向 哪些其他頁面,每個頁面有哪些導入鏈接,鏈接使用了什么錨文本等 種種的鏈接計算。Google PR是這種鏈接關系計算的重要代表之一。
7•特殊文件處理
可以抓取和索引以文字為基礎的多種文件類型。對flash、丨見頃、 PPT、XLS、圖片等非文字內容不能執行腳本和程序。搜索引擎目前 還無法獲取flash文件和圖片中的文字信息。圖片一般推薦使用ALT標 簽圖片文字信息。
1.4.3服務
經過前面的爬行抓取和預處理之后已經存儲了一定的數據,并且 已經記錄了重要關鍵詞的集合,即正向索引和倒排索引中的關鍵詞集 合,每個關鍵詞賦予特殊的編碼形成了一排文件。輸入4關鍵 詞就能馬上從相關文檔編號中找到所需信息了。
用戶輸入某個關鍵詞如"減肥",查找的出發點還是比較模糊的, 究竟是要找尋減肥方法,還是減肥教練等,這是大部分用戶的一個習 慣。搜索引擎處理方法是盡量把出現減肥二字的詞都調用出來,可能 包含幾百頁之多。排名靠前的,用戶也就點擊的也越多。
輸出的結果采用列表的形式。隨著谷歌技術的進步也有了一些不 錯的進展,谷歌采取了預加載網頁可視圖的形式來增強用戶體驗,如 圖1-12所示。
濟寧網站優化如何分析網頁建立倒排文件
圖1-12 Google^g^信息預覽頁
很顯然這樣的顯示方法更有利于用戶體驗,不用點擊鏈接就能看 到整個網頁的布局及分布情況,節省了用戶的時間。
文檔摘要在列表中起著重要的作用,一個豐富而有吸引力的描述 更加能夠引起用戶的興趣。那么搜索引擎是如何提取這些描述信息的 呢。一般從網頁正文開頭部分提取256個漢字,或者將每一個段落的 第一^句子拼起來,一旦查詢匹配就返回給用戶。
我們曰常都習慣用百度搜索一些相關的知識,和搜索的關鍵詞所 匹配出來的詞是黃背景、紅顏色的字,這是搜索引擎在用戶體驗上的 一種進步,也是現代搜索引擎必須要有的一^技術。
相關新聞

濟寧網絡營銷推廣的優點和缺點有哪些

網絡營銷的優勢 網絡營銷之所以會成為互聯網不可或缺的熱門行業之一,是因為 營銷的本質決...

日期:2018-10-20 瀏覽次數:91

濟寧網絡營銷推廣的發展前景怎么樣

網絡營銷是一種網上營銷手段,又可稱為在線營銷、網絡事件營 銷、互聯網營銷等。網絡營銷...

日期:2018-10-20 瀏覽次數:196

濟寧網站優化是如何實現的是 搜索引擎預處理方

通過前面的爬行抓取流程,已經把網頁全都抓取回來了,接下來 的工作就是對這部分數據進行...

日期:2018-10-20 瀏覽次數:165

濟寧網站優化如何收集重要的網頁

由于互聯網信息實在太多太雜,隨著時間的積累不可能將所有的 信息都收集起來,所以要盡可...

日期:2018-10-20 瀏覽次數:145

濟寧網站優化如何避免網頁重復收集

重復收集,從表面意思可以理解為第一次已經收集過之后,又進 行了第二次的收集。效率不但...

日期:2018-10-20 瀏覽次數:188

濟寧網站優化如何做好網站鏈接布局

蜘蛛主要通過爬取頁面上的鏈接來發現新的頁面,以此類推不停 地十字交叉爬行下去便形成一...

日期:2018-10-20 瀏覽次數:174

拳皇98APP 河北时时开奖视频直播 11选5内蒙古开奖号码 欢乐二八杠游戏下载 大乐透中奖公式口诀 体探足球即时比分 杀6码 王者荣耀妲己宿舍被 北京塞车pk10官网开奖 凤彩网每天更新3d推荐 51人体写真 看a片用什么软件 AG惊吓鬼屋游戏下载 二八杠游戏大厅下载 春秋彩票网站 太原按摩女孩 日本av三级片在线看