建站幫助TIANHUI

天匯用心服務每一位顧客

讓搜索引擎快速收錄網站頁面解決辦法

[建站幫助] 發布時間 [2010-5-17 8:48:03] 蘇州天匯公司

　　讓搜索引擎快速收錄網站頁面解決辦法 robots.txt，是用來聲明網站中不希望被搜索引擎收錄的內容或用來指定搜索引擎收錄內容的規則文件。

　　我們知道，現代搜索引擎收錄網站頁面是通過網絡爬蟲（英文名稱有很多:bots,spider,Crawler,collector,walker,Slurp等等）進行頁面采集，即由網絡爬蟲進入網站，將網站頁面以及頁面下的連接頁面進行下載，然后通過內容分析器來分析頁面內容。而在這個過程中，robots.txt的作用就在于告訴網絡爬蟲，那些頁面不能采集，那些頁面能采集。一般來說，主流搜索引擎的網絡爬蟲都是遵守robots.txt規范的。具體的robots規范可參見以下網站：www.robotstxt.org和www.w3.org。

　　robots.txt要求保存為小寫，存放在網站根目錄下，并保證可以通過www.yourdomain.com/robots.txt進行訪問的。

　　我們填寫robots.txt一般只需要注意兩個語法規則就可以了：User-agent和Disallow。User-agent是規定允許采集本站頁面的搜索引擎；Disallow規定不允許采集的頁面路徑。

例一、
　　User-agent: *
　　Disallow:
　　上面規則表示允許所有搜索引擎的爬蟲收錄本站頁面，并且允許采集所有頁面。本例還有一個簡便的方式，就是創建一個命名為robots.txt的空文檔，放入網站個目錄就好了！

例二、
　　User-agent: *
　　Disallow: /admin/
　　上面規則表示允許所有搜索引擎爬蟲收錄本站頁面，但不允許收錄/damin/目錄下的所有頁面。我們知道，admin目錄下的頁面，往往存放著后臺管理頁面，為了安全起見，我們不允許搜索引擎把/admin/目錄下頁面收錄。

例三、
　　User-agent: Baiduspider
　　Disallow:
　　上面規表示只允許Baidu爬蟲收錄本站頁面，并且允許收錄所有頁面。

例四、
　　User-agent: *
　　Disallow: /
　　上面規則表示任何搜索引擎爬蟲都不得收錄本站所有頁面。對于一些不希望公開站點的網站來說，的確是比較有用的！

　　知道以上規則，我們就可以巧妙利用robots.txt。

　　國內常見的搜索引擎爬蟲有：
Baiduspider、Googlebot、Slurp、MSNBOT、iaskspider、sogou+spider、Zhuaxia.com+1+Subscribers、Feedsky+crawler

本文地址：http://www.go-next-japan.com/Article/ArticleView_25.html

上一篇：企業網站建設為什么不能選擇模塊建站？
下一篇：沒有相關信息！