800元手機電腦做網站_設計網頁建設制作_優化推廣_濟寧網絡公司
當前位置:主頁 > 新聞資訊 > 優化知識 >

濟寧網站優化是如何實現的是 搜索引擎預處理方

發表日期:2018-10-20 16:38文章編輯:木易工作室瀏覽次數: 標簽:    

通過前面的爬行抓取流程,已經把網頁全都抓取回來了,接下來 的工作就是對這部分數據進行一個索引工作,其中包括了很多個處理 流程。和爬行一樣,預處理也是在后臺提前完成的。
1 .關鍵詞提取
搜索弓I擎完全能識別的依舊是以文字內容為主的。蜘蛛在爬取一 個頁面的同時也把大量的HTML代碼抓取下來,如JavaScript、css、 div標簽等,這些對排名都毫無意義。首先的工作是要將HTML標簽、
程序去除,提取用于排名的文字。
2.去除僖用詞
同一個詞可能在一篇網頁中出現多次,如"得"、〃的"、"地"、 "啊"、"阿〃、"呀〃、"卻"、"再〃、"從而"之類的無用詞,反復的出 現就沒什么價值了,我們稱這類詞為停用詞。這類詞也需要去除掉。
3•分詞技術
分詞是中文搜索引擎恃有的技術支持。中文信息和英文信息的差 別在于:英文單詞與單詞之間用的是空格分隔的,這對中文就行不通 了,搜索引擎必須將整個句子切割成小單元詞,如"我的兄弟姐妹" 拆分出來的形態是"我'"的'"兄弟"、"姐妹〃。分詞技術的效率 直接影響到整個系統的效率。
分詞的方法基本上有兩種:基于字符串匹配的分詞方法和基于統 計的分詞方法。
1 )基于字符串匹配的分詞方法
按匹配方向的不同,可分為正向匹配、逆向匹配和最少切詞。可 將這三種方法混合起來使用,即正向最大匹配、逆向最大匹配、正向 最小匹配、逆向最小匹配。
正向最大匹配:假設字典中最長的詞語字數為m ,先根據漢語標 點符號及特征詞把漢語句子切分為短語,然后去取短語的前m個字, 在字庫里面查找是否存在這個詞語,如果存在,短語就去掉這個詞;
如果不存在就去掉這4字的最后一個字,接著檢查剩下的詞是否是 單字,若是則輸出此字并將此字從短語中去掉,若不是則繼續判斷字 庫中是否存在這個詞,如此反復循環,直到輸出一個詞,此后繼續取 剩余短語的前m個字反復循環。這樣就可以將一個短語分成詞語的組 合了。
以"我是一個好人"為例,假設字典中最長詞語字數為3 ,正向 最大匹配順序為:
(1 )取出短語"我是一〃,檢查"我是一〃是否在字典中存在或 是一^單字,處理方式是去掉最后面的"一〃字;
(2 )檢查短語"我是〃是否在字典中存在或是一個單字,處理 方式是去掉"是"字,•
(3 ) 查"我"字是否在字典中存在或是一個單字,"我"是一 個單字,將"我"字輸出;
(4 )繼續取出短語"是一,檢查"是一個"是否在字典中存 在或是一個單字,處理方式是去掉最后面的"個"字,•
(5 )檢查短語"是一〃是否在字典中存在或是一個單字,處理 方式是去掉"一”字;
(6 )檢查"是"字是否在字典中存在或是一個單字,"是"是一 個單字,將"是〃字輸出;
(7 )取出短語"一個好",查"一個好〃是否在字典中存在或
是一^單字,處理方式是去掉最后面的"好〃字;
(8 ) ^短語"一^'發現是字典中的一司,直接輸出,•
(9 ) ^短語"好人'發現是字典中的一司,直接輸出,•
(10 ) S后輸出結果為:我、是、一個、好人。
逆向最大匹配:以句子結尾處進行分詞的方法。逆向最大匹配技 術最大的一個作用是用來消歧。如"富營銷線下聚會在下城子鎮舉 行"按照正向最大匹配結果為:富/營銷/線/下/聚會/在/下/城子鎮/舉 行,很顯然這當中差生了歧義。下城子鎮是一個地名,沒有被正確地 切分。釆用逆向最大匹配的技術可以修正這個錯誤。例如設定一^ 詞節點大小為7 ,那么"在下城子鎮舉行"中很顯然"舉行"被分出 來了,最后剩下"聚會在下城子鎮〃,這樣一來歧義就被消除了。
正向最小匹配/逆向最小匹配:一般很少使用到,實際使用中逆 向匹配的精準度要高于正向匹配度。
2)基于統計分詞方法
直接調用分詞詞典中的若干詞進行匹配,同時也使用統計技術來 識別一些新的詞語,將所有的統計結果匹配起來發揮切詞的最高效 率。
分詞詞典是搜索引擎判斷詞語的依據,基本上收錄了漢語詞典當 中所有的詞語。如我們在搜索引擎中輸入"我要減肥了減肥" 兩字就會被判定為一個詞語。現在網絡上經常會出現一些新造的網絡
流行詞語如"神馬"、"屋利哥"等,這樣的詞也都會慢慢地被收 錄。分詞詞典只有不斷更新才能滿足我們日常搜索判斷的需求。
4•消除噪聲
網頁上有各種形形色色的廣告文字、廣告圖片、登錄框、版權信 息等,為了某些目的不得不放上去,這些對搜索引擎來說不是有用的 東西,可以直接去掉。如圖1-9所示,這個是富營銷論壇的一些噪音 元素。登錄框只對用戶登錄使用,對搜索引擎來說不用登錄進去再查 看信息,"發帖〃和"回復〃自然也是不必要的噪聲。
相關新聞

濟寧網絡營銷推廣的優點和缺點有哪些

網絡營銷的優勢 網絡營銷之所以會成為互聯網不可或缺的熱門行業之一,是因為 營銷的本質決...

日期:2018-10-20 瀏覽次數:91

濟寧網絡營銷推廣的發展前景怎么樣

網絡營銷是一種網上營銷手段,又可稱為在線營銷、網絡事件營 銷、互聯網營銷等。網絡營銷...

日期:2018-10-20 瀏覽次數:196

濟寧網站優化如何分析網頁建立倒排文件

正向索引:經過前面幾步的工作之后就開始提取關鍵詞了,把頁 面轉換為一個關鍵詞組合,同...

日期:2018-10-20 瀏覽次數:87

濟寧網站優化如何收集重要的網頁

由于互聯網信息實在太多太雜,隨著時間的積累不可能將所有的 信息都收集起來,所以要盡可...

日期:2018-10-20 瀏覽次數:145

濟寧網站優化如何避免網頁重復收集

重復收集,從表面意思可以理解為第一次已經收集過之后,又進 行了第二次的收集。效率不但...

日期:2018-10-20 瀏覽次數:188

濟寧網站優化如何做好網站鏈接布局

蜘蛛主要通過爬取頁面上的鏈接來發現新的頁面,以此類推不停 地十字交叉爬行下去便形成一...

日期:2018-10-20 瀏覽次數:174

拳皇98APP 切尔西皮鞋 快乐扑克走势图360 博天堂21点 加油金龙电子 海南麻将单机版 吉利平特心水论 中国福利彩票快三的骗局 大牌九图片 陕西快乐10分投注技巧 扬红公式规律 王者荣耀ns版 堡垒之夜第八赛季第五周隐藏任务 逆战体验服官方下载 七乐彩走势图 排列三组三复式8个号 百慕大三角在线客服