宇霄網絡 > 新聞資訊 > 網站優化 >

關于搜索引擎檢索系統的簡要介紹

編輯 / 宇霄網絡 / 2018-06-19 14:31:41

很多人對搜索引擎的基本知識不怎么了解,其實除了索引系統以外,我們還要學習搜索引擎檢索系統的相關知識。實際上在建立倒排索引的最后還需要有一個入庫寫庫的過程,而為了提

  很多人對搜索引擎的基本知識不怎么了解,其實除了索引系統以外,我們還要學習搜索引擎檢索系統的相關知識。實際上在建立倒排索引的最后還需要有一個入庫寫庫的過程,而為了提高效率這個過程還需要將全部term以及偏移量保存在文件頭部,并且對數據進行壓縮等等,今天宇霄網絡小編就給大家介紹下這方面的內容。

  搜索引擎的檢索系統主要包含了五個部分,如下圖所示:

搜索引擎檢索系統

  (1)Query串切詞分詞即將用戶的查詢詞進行分詞,對之后的查詢做準備,以“10號線地鐵故障”為例,可能的分詞如下(同義詞問題暫時略過):

  10 0x123abc

  號 0x13445d

  線 0x234d

  地鐵 0x145cf

  故障 0x354df

  (2)查出含每個term的文檔集合,即找出待選集合,如下:

  0x123abc 1 2 3 4 7 9…..

  0x13445d 2 5 8 9 10 11……

  ……

  ……

  (3)求交,上述求交,文檔2和文檔9可能是我們需要找的,整個求交過程實際上關系著整個系統的性能,這里面包含了使用緩存等等手段進行性能優化;

  (4)各種過濾,舉例可能包含過濾掉死鏈、重復數據、色情、垃圾結果以及你懂的;

  (5)最終排序,將最能滿足用戶需求的結果排序在最前,可能包括的有用信息如:網站的整體評價、網頁質量、內容質量、資源質量、匹配程度、分散度、時效性等等,大家對這些內容也需要有所了解。

本文由宇霄網絡整理發布http://www.ptpt68.com/ 轉載請注明出處!

關注我們

推薦文章

>百度算法匯總十四:信風算法

>百度搜索將嚴厲打擊色情低俗廣告內

>域名被“強”怎么處理才能把損失降

>百度算法匯總十三:颶風算法2.0

>百度熊掌號搜索名片設置功能正式上

>【沈陽SEO】新手SEOER最容易犯的幾種

>【通遼SEO】新手如何才能學好SEO?

>【赤峰SEO】移動端SEO過程中需要注意

案例展示

競價托管

優化外包

分享到:

關于搜索引擎檢索系統的簡要介紹

網站優化

<<
百度算法匯總十一:極光算法

>>
如何準確識別是否是Baiduspider?

相關標簽

掃一掃,關注宇霄網絡微信

分享到微信朋友圈x
打開微信,點擊底部“發現”,使用 “掃一掃” 將網頁分享到朋友圈。
我的世界免费下载_啊 受不了了 不要 嗯_影音先锋2019资源网站_亚洲操操操 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>