让企业赢在全网营销时代
当前位置: 主页 > 建站知识 > 网站运营 >
联系我们
电话咨询:15066004201
E-mail:727661179@qq.com
地址: 山东省东营市西城区

robots协议的具体使用及正确写法大揭秘

作者:admin 点击量:次 2016-05-27

当搜索引擎的蜘蛛匍匐某个网站的时分,会首先拜访网站根目录下的robots文件,在实践的网站优化进程中robots协议起到了不可或缺的作用。专注SEO技术的金蝌蚪小编这里先讲讲robots的详细运用及写法。

一、什么是robots协议?

Robots协议是基于搜索技术应效劳于人类,同时尊重信息提供者的志愿,并维护其隐私权,网站有义务维护其运用者的团体信息和隐私不被进犯而发生的与网络爬虫沟通的协议!复杂说来就是用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取。好比私家花园的门口挂着“闲人免进”!

二、Robots协议运用

1、网站调试时期和网站改版:这时分往往会触及到网站的标题、描叙或许构造导航的更改,假如任由搜索引擎得抓取,往往会形成搜索引擎对网站好感度下降,收录异常,严重者间接进入沙盒期!但是记得上线之后要取消屏蔽,我一个冤家得网站很久都不被网站收录,后来反省居然是网站robots外面屏蔽了蜘蛛,真的有点哭笑不得了。

2、网站的后台:网站的后台数据一方面触及网站隐私,另一方面关于用户来说也没价值必要,通常是大中小网站屏蔽的首要内容。

3、不希望被某个搜索引擎匍匐:总所周知淘宝2008曾经在robots中制止百度抓取,但是百度还是保存淘宝的首页,如图:

4、一些不想被抓取的页面:可适当控制网站权重流向,如广告页、不重要页面等。

三、robots协议写法

最复杂的写法robots.txt规则如下:

User-agent:指定对哪些爬虫失效

Disallow:指定要屏蔽的目录或网址

不同的蜘蛛有不同的称号,其中*代表一切的蜘蛛,baiduspider表示百度蜘蛛,goolebot表示谷歌蜘蛛,360Spider表示360蜘蛛。

罕见的几种写法:

1、制止一切蜘蛛抓取网站的任何内容

User-agent:*

Disallow:/

2、制止某一蜘蛛网站任何内容,以百度为例

User-agent:baiduspider

Disallow:/

3、制止一切蜘蛛抓取网站后台数据

User-agent:*

Disallow:/wp-admin/

4、制止多个目录及网页的抓取

User-agent:*

Disallow:/wp-admin/

Disallow:/wp-includes/

Sitemap: http://域名/sitemap.html(通知网站地图所在中央)

备注:Disallow制止的目录或文件必需分开写,每个一行!

在我们实践的操作进程中,可运用百度站长平台实践检查本人网站的robots协议能否书写正确及失效,网址如下:http://zhanzhang.baidu.com/robots/index。