优搜网

Robots协议-robots.txt

Robots协议-简介

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。

robots.txt必须放置在一个站点的根目录下,文件名必须全部小写。

Robots协议-原则

Robots协议是国际互联网界通行的道德规范,基于以下原则建立:

1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

robots协议原理

Robots协议-作用

robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

Robots协议-robots.txt写法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow:/A 是屏蔽A目录下的所有文件,包括文件和子目录,还屏蔽 /A*.*的文件
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址(动态页面)
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: /*.htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: /*.gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图。如,Sitemap: http://www.***.com/sitemap.xml(此处请填写XML地图的绝对路径,即完整URL,如果按习惯填写Sitemap: /sitemap.xml,提交后会提示:检测到无效的 Sitemap 网址;语法错误。XML地图必须在网站根目录下才有效。)

注:我们常用的搜索引擎类型有:(User-agent区分大小写)

google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
360蜘蛛:360Spider
sogou蜘蛛:Sogou Web Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot
泽许蜘蛛: Zexuwhte

Robots协议-用法举例

例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow: /

例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /

例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Allow: /

User-agent: *
Disallow: /

Robots协议-Robots Meta标签

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的meta标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots Meta标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

index指令告诉搜索机器人抓取该页面;
follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index、nofollow。

禁止搜索引擎跟踪网页的链接,而只对网页建索引

如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 <HEAD> 部分:

<meta name=”robots” content=”nofollow”>

如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:

<a href=”signin.php” rel=”nofollow”>sign in</a>

要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:

<meta name=”Baiduspider” content=”nofollow”>

禁止搜索引擎跟踪网页的链接,而只对网页建索引

如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 <HEAD> 部分:

<meta name=”robots” content=”nofollow”>

如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:

<a href=”signin.php” rel=”nofollow”>sign in</a>

要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:

<meta name=”Baiduspider” content=”nofollow”>

Robots协议-生效时间

robots.txt文件一般生效时间为7-15天,即1-2周。如果新网站源码中包含robots.txt文件,那样蜘蛛进行爬行时就会生效,如果是后来添加的,那样蜘蛛需要对数据进行更新,时间一般在7-15天。

特别提示:robots里面内容的大小写不可更改,Disallow后面的冒号必须为英文状态的,遵守先允许后禁止书写顺序。


优搜网-网站优化,从SEO到互联网营销,提供最优的网站优化解决方案
优搜网,从SEO到互联网营销,为您提供最优的网站优化解决方案。提供网站优化,百度优化,关键词排名,百度推广,服务器租用托管及高权重(pr)域名转让业务。
关于uiseo.cn

本文分类: SEO百科

发布时间: 2013年12月21日 15:26

本文链接: http://www.uiseo.cn/robots-txt

继续查看有关:/ / / 的文章

若无特别注明,文章皆为优搜网原创,转载请注明出处


文章评论
共收到 0 条评论
广告招租