robots.txt,是一个给搜索引擎机器人下指令的文本文件,用于优化。
如果用对了,可以确保搜索引擎机器人(也叫爬虫或蜘蛛)正确抓取和索引你的网站页面。
如果用错了,可能会对排名和网站流量造成负面影响,那怎么设置robots.txt文件才算正确?一灯今天就和大家分享下一点心得,内容主要包括以下几个方面。
robots.txt是一个放在网站根目录的纯文本文件,需要自己添加,如下图所示。
如果你网站的域名是www.zimengwangluo.cn,robots.txt的查看地址是www.zimengwangluo.cn/robots.txt。
robots.txt里包含了一组搜索引擎机器人指令。
当搜索引擎机器人访问你网站时,首先会查看robots.txt文件里的内容,然后根据robots.txt的指示进行网站页面的抓取和索引,进而收录某些页面,或不收录某些页面。
需要注意的是,robots.txt文件不是那种强制性、必须要做的设置。至于做与不做,为什么要做,做了有什么用,我接下来为大家详细解释。
简单的说,robots.txt有两个功能,允许和阻止搜索引擎机器人抓取你的网站页面。如果没有的话,搜索引擎机器人将对整个网站进行爬行,包括网站根目录的所有数据内容。
具体的工作原理可以参考elliance的说明,如下图所示。
1993年,互联网才起步没多久,能被发现的网站少之又少,Matthew Gray编写了一个蜘蛛爬虫程序World Wide Web Wanderer,目的是发现收集新网站做网站目录。
但后面搞爬虫的人不仅是收集网站目录这么简单,还会抓取下载大量网站数据。
同年7月,Aliweb创始人Martijn Koster的网站数据被恶意抓取,于是他提出了robots协议。
目的是告诉蜘蛛爬虫,哪些网页可以爬行,哪些网页不可以爬行,特别是那些不想被人看到的网站数据页面。经过一系列的讨论,robots.txt正式走上历史舞台。
从角度来说,刚上线的网站,由于页面较少,robots.txt做不做都可以,但随着页面的增加,robots.txt的作用就体现出来了,主要表现在以下几个方面。
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.yourdomain.com/sitemap.xml
User-agent: *
Allow: /
Sitemap: https://www.yourdomain.com/sitemap.xml