WordPress 中文文档

Robots.txt

From WordPress Chinese

Jump to: navigation, search
robots.txt综述 怎么写robots.txt robots.txt语法规范 文件实例 常见错误 通配符扩展
robots.txt疑难解答 检测工具 爬虫名称一览表 禁止收录特定页面 清除已收录的页面 META标签:robots

目录

什么是robots.txt?

robots.txt是存放于网站根目录下的文本文件,用于告诉搜索引擎的漫游器(又称网络蜘蛛)哪些内容不能被抓取,从而防止特定内容被搜索引擎收录。



有说法表明:即便不想阻挡任何网络爬虫,网站也应该建立一个空的robots.txt文件,否则可能带来潜在错误。参见:###


robots.txt的作用和局限

robots.txt可以做什么?

防止私有或其他非发布性内容被搜索引擎收录
绝大多数的搜索引擎都遵循robots.txt规范。通过设置robots.txt,你可以防止自己的私人文件、测试中的程序被搜索引擎所收录。
节省服务器资源,从而提高服务质量
尽管网站内容被越多的搜索引擎收录越有推广效果,但过多的搜索引擎爬虫会带来很大的服务器负载(爬虫访问量可能达到正常访问量的10倍)。这对于虚拟主机或资源比较紧张的的网站是个头痛的问题。
这种情况下,你可以通过robots.txt中封禁部分爬虫来节约开销。另外,对于系统开销很高的查询结果调用页面,可考虑屏蔽操作。
减少重复收录,提高网站独特性
这个不是太重要的特性,你可以用robots.txt来阻止打印模式、不同皮肤造成的内容重复。
互联网上充斥了大量的重复内容,尽管目前搜索引擎并没有对重复内容进行惩罚,但未雨绸缪可能避免潜在的风险(实际上,搜索引擎目前很难判断哪个是真正的原始出处)。
其他作用——Sitemap、爬虫访问频率
①可以通过robots.txt指定sitemap文件位置,从而避免到多个[[搜索引擎">搜索引擎</a>去提交的麻烦。目前<font color="#FF8000|搜索引擎]]去提交的麻烦。目前###(欢迎补充资料)支持这个操作。
yahoo爬虫支持对robots.txt的一个扩展:设定爬虫访问频度。

robots.txt做不到什么?

robots.txt不可能对网站内容进行高安全性的隐藏
robots.txt仅仅指导爬虫们不要去抓取某些网站内容,但对用户直接网址等方式的访问则没有封禁效果!
不仅如此,实际上还有人特意研究某些网站的robots.txt,试图找到其中隐藏的东西。
Image:Sharp-arrow-right.gif 如果你不想让别人知道某些东西,那么最好的办法是通过程序加密来限制访问。(临时的简单处理办法也有:使用不为人所知的独特子目录,注意不要在外部对其中内容进行链接而造成泄密)
robots.txt不能封禁恶意爬虫或内容抓取
robots.txt仅仅是一个民间的指导性意见,不遵从它并没有法律后果。实际上,采集器等多数恶意爬虫根本不理睬robots.txt,例如某些网站刻意忽略robots.txt来盗链、抓取mp3或电影等文件,封禁它们需要用更专业的手段。
robots.txt不能删除搜索引擎中已收录的页面
设定的robots.txt规则并不能马上生效,这与搜索引擎的更新机制有关。如果搜索引擎已经收录网页并做了缓存,则可能根据缓存而继续对其索引。
关于这个问题,请参考让搜索引擎清除已收录的页面
robots.txt不善于处理个别页面
robots.txt的禁止抓取设定是基于目录的,如果一个目录中仅有部分页面需要禁止收录,应用nofollownoindexmeta标签更方便。

robots.txt用法说明

请参见robots.txt语法规范


robots.txt相关的meta标签

robots.txt能方便的设置搜索引擎不去访问整个目录,对单独文件的处理则并不方便。多数情况下,可以在单独的网页html文件中增加相关meta标签来解决这个问题:



<meta name="robots" content="index,follow"> <meta name="robots" content="noindex,follow"> <meta name="robots" content="index,nofollow"> <meta name="robots" content="noindex,nofollow"> </pre>


其中index标签表示搜索引擎可以收录,noindex不收录;follow表示可以根据页内链接继续漫游,nofollow则禁止。


参考资料

robots.txt综述 怎么写robots.txt robots.txt语法规范 文件实例 常见错误 通配符扩展
robots.txt疑难解答 检测工具 爬虫名称一览表 禁止收录特定页面 清除已收录的页面 META标签:robots

相关链接

robots.txt规范
以下链接给出robots.txt的通用标准


各搜索引擎对robots.txt的规定和扩展
以下链接供读者针对某特定搜索引擎爬虫而撰写robots.txt时参考


robots.txt的新版提案
以下链接供研究robots.txt的未来,目前对网站操作没有实质影响


robots.txt其他相关文章
★★★☆☆搜索引擎蜘蛛及Robots.txt文件详解 http://www.bloghuman.com/post/67.htm"
★★★★☆Robots.txt指南 http://www.adsensepro.net/seo/seo/2007-02-12/Robotstxt-ZhiNa-r5pm06.htm"
robots.txt生成工具


robots.txt检测工具
(欢迎补充资料)
用户