宇霄網絡 > 新聞資訊 > 網站優化 >

百度spider基礎知識匯總

編輯 / 宇霄網絡 / 2018-06-08 10:43:45

很多人對Baiduspider不怎么了解,今天宇霄網絡小編就給大家詳細介紹下Baiduspider相關的一些基礎知識,希望對大家有所幫助。

  很多人對Baiduspider不怎么了解,今天宇霄網絡小編就給大家詳細介紹下Baiduspider相關的一些基礎知識,希望對大家有所幫助。

百度spider

  1、什么是Baiduspider

  Baiduspider是百度搜索引擎的一個自動程序,它的作用是訪問互聯網上的網頁,建立索引數據庫,使用戶能在百度搜索引擎中搜索到您網站上的網頁。

  2、Baiduspider的user-agent是什么?

  百度各個產品使用不同的user-agent:

  網頁搜索:Baiduspider

  無線搜索:Baiduspider

  圖片搜索:Baiduspider-image

  視頻搜索:Baiduspider-video

  新聞搜索:Baiduspider-news

  百度搜藏:Baiduspider-favo

  百度聯盟:Baiduspider-cpro

  商務搜索:Baiduspider-ads

  3、Baiduspider對一個網站服務器造成的訪問壓力如何?

  為了達到對目標資源較好的檢索效果,Baiduspider需要對您的網站保持一定量的抓取。我們盡量不給網站帶來不合理的負擔,并會根據服務器承 受能力,網站質量,網站更新等綜合因素來進行調整。如果您覺得baiduspider的訪問行為有任何不合理的情況,您可以反饋至反饋中心。

  4、為什么Baiduspider不停的抓取我的網站?

  對于您網站上新產生的或者持續更新的頁面,Baiduspider會持續抓取。此外,您也可以檢查網站訪問日志中Baiduspider的訪問是否正常,以防止有人惡意冒充Baiduspider來頻繁抓取您的網站。 如果您發現Baiduspider非正常抓取您的網站,請通過反饋中心反饋給我們,并請盡量給出Baiduspider對貴站的訪問日志,以便于我們跟蹤處理。

  5、如何判斷是否冒充Baiduspider的抓取?

  建議您使用DNS反查方式來確定抓取來源的ip是否屬于百度,根據平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:

  5.1、在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以*.baidu.com 或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。

  $ host 123.125.66.120
  120.66.125.123.in-addr.arpa domain name pointer
  baiduspider-123-125-66-120.crawl.baidu.com.
  host 119.63.195.254
  254.195.63.119.in-addr.arpa domain name pointer
  BaiduMobaider-119-63-195-254.crawl.baidu.jp.

  5.2、在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。

  5.3、在mac os平臺下,您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入dig xxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com 或*.baidu.jp即為冒充。

  6、我不想我的網站被Baiduspider訪問,我該怎么做?

  Baiduspider遵守互聯網robots協議。您可以利用robots.txt文件完全禁止Baiduspider訪問您的網站,或者禁止 Baiduspider訪問您網站上的部分文件。 注意:禁止Baiduspider訪問您的網站,將使您的網站上的網頁,在百度搜索引擎以及所有百度提供搜索引擎服務的搜索引擎中無法被搜索到。關于 robots.txt的寫作方法,請參看我們的介紹:robots.txt寫作方法

  您可以根據各產品不同的user-agent設置不同的抓取規則,如果您想完全禁止百度所有的產品收錄,可以直接對Baiduspider設置禁止抓取。

  以下robots實現禁止所有來自百度的抓取:

  User-agent: Baiduspider
  Disallow: /

  以下robots實現禁止所有來自百度的抓取但允許圖片搜索抓取/image/目錄:

  User-agent: Baiduspider
  Disallow: /
  User-agent: Baiduspider-image
  Allow: /image/

  請注意:Baiduspider-cpro抓取的網頁并不會建入索引,只是執行與客戶約定的操作,所以不遵守robots協議,如果Baiduspider-cpro給您造成了困擾,請聯系百度客服。

  Baiduspider-ads抓取的網頁并不會建入索引,只是執行與客戶約定的操作,所以不遵守robots協議,如果Baiduspider-ads給您造成了困擾,請聯系您的客戶服務專員。

  7、為什么我的網站已經加了robots.txt,還能在百度搜索出來?

  因為搜索引擎索引數據庫的更新需要時間。雖然Baiduspider已經停止訪問您網站上的網頁,但百度搜索引擎數據庫中已經建立的網頁索引信息,可能需要數月時間才會清除。另外也請檢查您的robots配置是否正確。

  如果您的拒絕被收錄需求非常急迫,也可以通過反饋中心反饋請求處理。

  8、我希望我的網站內容被百度索引但不被保存快照,我該怎么做?

  Baiduspider遵守互聯網meta robots協議。您可以利用網頁meta的設置,使百度顯示只對該網頁建索引,但并不在搜索結果中顯示該網頁的快照。

  和robots的更新一樣,因為搜索引擎索引數據庫的更新需要時間,所以雖然您已經在網頁中通過meta禁止了百度在搜索結果中顯示該網頁的快照,但百度搜索引擎數據庫中如果已經建立了網頁索引信息,可能需要二至四周才會在線上生效。

  9、Baiduspider抓取造成的帶寬堵塞?

  Baiduspider的正常抓取并不會造成您網站的帶寬堵塞,造成此現象可能是由于有人冒充Baiduspider惡意抓取。如果您發現有名為Baiduspider的agent抓取并且造成帶寬堵塞,請盡快和我們聯系。您可以將信息反饋至反饋中心,如果能夠提供您網站該時段的訪問日志將更加有利于我們的分析。

本文由宇霄網絡整理發布http://www.ptpt68.com/ 轉載請注明出處!

關注我們

推薦文章

>百度算法匯總十四:信風算法

>百度搜索將嚴厲打擊色情低俗廣告內

>域名被“強”怎么處理才能把損失降

>百度算法匯總十三:颶風算法2.0

>百度熊掌號搜索名片設置功能正式上

>【沈陽SEO】新手SEOER最容易犯的幾種

>【通遼SEO】新手如何才能學好SEO?

>【赤峰SEO】移動端SEO過程中需要注意

案例展示

競價托管

優化外包

分享到:

百度spider基礎知識匯總

網站優化

<<
“大神”的SEO面試技巧,你學到了嗎?

>>
搜索引擎抓取系統的基本框架、網絡協議和過程

相關標簽 百度spider

掃一掃,關注宇霄網絡微信

分享到微信朋友圈x
打開微信,點擊底部“發現”,使用 “掃一掃” 將網頁分享到朋友圈。
我的世界免费下载_啊 受不了了 不要 嗯_影音先锋2019资源网站_亚洲操操操 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>