-
文件位置与命名:robots.txt文件必须放在网站的根目录下,且文件名需为小写。
-
指令格式规范
- 每一行代表一个指令,空白和隔行会被忽略。
- “#”号后的字符参数会被忽略,避免将有效指令写成注释。
- 路径区分大小写,但搜索引擎蜘蛛在查看robots的时候会忽略大小写,为了保险起见,最好保持统一格式。
- 反斜杠代表根目录,如Disallow:/表示禁止收录一切页面和文件夹的内容,注意不要遗漏。
- 指令前不要加空格,否则可能导致机器人无法正确理解指令含义。
-
Allow与Disallow顺序:顺序问题会导致抓取错误,如果把allow放置后边,有时候就会出现想要收录的内容不被收录。若要唯一收录a文件夹下的b.html,应写作:Allow:/a/b.html Disallow:/a/,顺序不可颠倒。
-
User-agent使用
- 一般网站的robots.txt文件中不要出现多个user-agent记录,一般都是一个为宜,但是如果一个都不出现,也是被允许的。
- 通配符“*”可匹配所有爬虫,但特定User-agent规则优先于通配符规则。
-
Sitemap关联:通过Sitemap指令主动提供网站地图地址,方便爬虫发现整站内容,提升收录效率。