robots.txt有什么作用?
是一个搜索引擎蜘蛛在爬取网站第一时间访问的说明文档,告诉蜘蛛,那些网站页面目录可以访问,那些文件页面不允许访问。
操作步骤:
新建一个文本重命为:robots.txt 将以下代码根据自己需求写里面保存,上传到网站根目录。
robots协议大全:
1.禁止百度收录网站任何页面,包括主页:
User-agent:baiduspider
Disallow: /
2.禁止所有搜索引擎收录网站任何页面,如搜狗,360,谷歌等,包括主页:
User-agent: *
Disallow: /
3.禁止搜索引擎收录某指定目录:
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
4.禁止搜索引擎访问收录带?号的动态页面:
User-agent:*
Disallow: /*?*
5.禁止搜索引擎收录抓取网站图片格式:
User-agent:
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
6.禁止其他搜索引擎收录访问,只允许百度收录访问
User-agent: baiduspider
Disallow: User-agent: *
Disallow: /
7.禁止收录bin目录下面html全部文件
User-agent: *
Disallow: /bin/*.html
8.允许所有搜索引擎访问收录网站的代码:
User-agent:*
Disallow:
9.允许访问收录指定目录的URL
User-agent: *
Allow: /a/a1
Allow: /b/b1
Allow: /c1
Disallow: /a/
Disallow: /b/
Disallow: /c/
10.仅允许访问收录后缀为html的页面
User-agent: *
Allow: .html$
Disallow: /
修改说明:
上面提供了多种不同的robots写法,举一反三,其他不同情况,大家都应该能写了,想怎么写我就怎么根据自己需求写。
THE END
暂无评论内容