优化网站时,我们总有些页面不想被搜索引擎抓取和收录,虽然有时自己网站页面没有链接到不想被收录的页面,但不可避免其他网站由于某些原因出现导入连接,导致网站被收录。确保网站不被收录,需要使用robots文件,那该如何设置呢?
倘若robots文件不存在或者是空文件,都意味着允许搜索引擎抓取所有内容。但有些服务器设置有问题,robots文件不存在时,会返回200状态码及一些错误内容,而不是404状态码,这很有肯那个使搜索引擎错误解读robots文件信息。世纪东方小编建议就算允许抓取所有内容,也在建立一个空的robots.txt文件,放在根目录下。
一、robots.txt文件格式
格式:User-agent:
Disallow:
User-agent: 指定规则适用于哪种蜘蛛;
Disallow:告诉蜘蛛不要抓取某些文件及目录;
Allow:告诉蜘蛛抓取哪些文件及目录;
1、允许所有访问
User-agent:*
Allow:/
2、禁止所有搜索引擎抓取任何内容
User-agent:*
Disallow:/
3、禁止百度蜘蛛抓取
User-agent:Baiduspider
Disallow:/
4、禁止google蜘蛛抓取
User-agent:Googlebot
Disallow:/
5、禁止蜘蛛抓取某个目录下的文件夹及内容,如(/news/和/tag/下的这个目录及文件;
User-agent:*
Disallow:/news/
Disallow:/tag/
注:禁止目录及文件夹必须分开来写,每个一行,不能写成:Disallow:/news//tag/
6、允许蜘蛛抓取某个目录下的某个目录及文件,如:只抓取/domain/cn/目录
User-agent:*
Disallow:/domain/
allow:/domain/cn/
7、只允许蜘蛛抓取以.html为后缀的url
User-agent:*
allow:.htm$
"$"通配符表示匹配URL结尾的字符
8、禁止访问某个目录下所有以".html"为后缀的url,如:禁止/domain/目录下的所有以".html"为后缀的url
User-agent:*
Disallow:/domain/*.html
9、禁止抓取网站中所有动态页面
User-agent: *
Disallow: /*?*
10、禁止Googlebot抓取网站所有图片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gig$
Disallow: /*.png$
Disallow: /*.bmp$