百度robots协议工具使用详解。前面在给大家分享“关于网站文章不收录的问题解决方法”的文章中提到,网站要做好robots协议的设置。考虑到不少新手seo站长对该协议的了解和使用还不够准确。因此,今天就给大家具体讲讲,什么是robots协议以及百度robots协议工具的使用详解。
为什么做网站seo优化必须要使用robots协议?
简单的将,robots协议并不是一个规范,而只是约定俗成并存放在网站根目录下的规则文件。用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。例如:当搜索引擎蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
一、定义:什么是Robots协议
百度官方的解释是:Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
robots是一个协议,而不是一个命令。robots.txt文件是一个文本文件,是放置在网站根目录下,使用任何一个常见的文本编辑器,就可以创建和编辑它。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,其主要的作用就是告诉蜘蛛程序在服务器上什么文件是可以被查看的。
使用Robots协议的真正原因----- 隐私保护
需要补充说明的是:Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。因此,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件,如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt 文件。
二、Robots协议的写法规则
robots.txt放到一个站点的根目录下即可,一个robots.txt只能控制相同协议,相同端口,相同站点的网页抓取策略。
1、robots.txt的常规写法规则
最简单的robots.txt只有两条规则:
User-agent:指定对哪些爬虫生效
Disallow:指定要屏蔽的网址
整个文件分为x节,一节由y个User-agent行和z个Disallow行组成。一节就表示对User-agent行指定的y个爬虫屏蔽z个网址。这里x>=0,y>0,z>0。x=0时即表示空文件,空文件等同于没有robots.txt。
下面详细介绍这两条规则:
(1)、User-agent
爬虫抓取时会声明自己的身份,这就是User-agent,没错,就是http协议里的User-agent,robots.txt利用User-agent来区分各个引擎的爬虫。
举例说明:google网页搜索爬虫的User-agent为Googlebot,下面这行就指定google的爬虫。
User-agent:Googlebot
如果想指定所有的爬虫怎么办?不可能穷举啊,可以用下面这一行:
User-agent: *
可能有的同学要问了,我怎么知道爬虫的User-agent是什么?这里提供了一个简单的列表:爬虫列表
当然,你还可以查相关搜索引擎的资料得到官方的数据,比如说google爬虫列表,百度爬虫列表
(2)、Disallow
Disallow行列出的是要拦截的网页,以正斜线 (/) 开头,可以列出特定的网址或模式。
要屏蔽整个网站,使用正斜线即可,如下所示:
Disallow: /
要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线,如下所示:
Disallow: /无用目录名/
要屏蔽某个具体的网页,就指出这个网页,如下所示:
Disallow: /网页.html
三、Robots协议使用模板(大家可以直接根据这个模板来修改网站的robots文件)
先讲一下搜索引擎即我们俗称的爬虫或蜘蛛的简单工作流程:
1 我们发布的网站,都有一堆url;
2 蜘蛛抓取这些url并解析网页,抽取其中的超级链接;
3 蜘蛛接着抓取新发现新的网页;
4 以上循环往复。
robots协议就是用来告诉搜索引擎哪些网页页面可以被抓取,哪些网页不能抓取。
robots协议的写法规范:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /xx/ 禁止抓取xx目录下面的目录
Disallow: /xx/ 这里定义是禁止抓取xx目录下面的目录
Disallow: /xx/ 这里定义是禁止抓取xx目录下面的目录
Disallow: /xx/*.htm 禁止访问/xx/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止抓取网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/xx/xx.html 禁止抓取xx文件夹下面的xx.html文件。
Allow: /xx/ 这里定义是允许抓取xx目录下面的目录
Allow: /xx 这里定义是允许抓取xx的整个目录
Allow: .htm$ 仅允许抓取以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
用法一:
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
用法二:
允许所有的robot访问
User-agent: *
Allow: /
郑州SEO木子博客点评:
以上就是今天小编木子给大家分享的关于robots协议工具的使用详解。需要指出的是:Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的,搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许,搜索引擎则会按照Robots协议给予的权限进行抓取。另外,本文主要针对百度搜索引擎的robots协议工具使用规则来总结。当然,不同的搜索引擎在使用 robots协议的写法规则上稍有不同。如果您有兴趣可以到相关搜索引擎的官方网站查阅相关资料,也可以联系小编木子(QQ:194964241)索取相关资料。
转载请注明出处。