让企业赢在全网营销时代
当前位置: 主页 > 建站知识 > 网络营销 >
联系我们
电话咨询:15066004201
E-mail:727661179@qq.com
地址: 山东省东营市西城区

robots.txt协议在网站推广中的应用

作者:admin 点击量:次 2017-02-27

  robots协议是网站和搜索引擎的抓取协议,也是蜘蛛访问网站的第一个文件,其 作用是指引搜索引擎蜘蛛按照该文件中的内容来确定访问的范围,保障网络安全与网站隐私,防止网站数据和敏感信息泄露,确保用户个人信息和隐私不被侵犯。没 有robots协议,就是默认搜索引擎抓取网站所有的页面。

robots.txt协议

  查看网站的robots文件方法:http://www.linsenad.cn/robots.txt

  网站为什么要写robots?

  1、避免资源浪费:针对不需要搜索引擎检索的页面和文件进行屏蔽,节约了搜索引擎蜘蛛资源。

  2、防止敏感信息及网站隐私的泄露:主要针对网站后台程序文件、前台模板文件不被抓取。

  3、提升搜索引擎友好度:抓取多了无用的信息,搜索引擎会认为网站质量较低,屏蔽死链接和无用页面提升搜索引擎友好度

  robots写法

  第一行通常是:User-agent: *(User-agent是搜索引擎,*在程序语言中是通配符。“User-agent: *”就是所有的搜索引擎,包括百度、谷歌、360、搜狗。。。)

  Disallow是不允许、禁止的意思,这里定义是禁止蜘蛛爬取(某个文件,某个目录。。)

  例如:Disallow: /index.php 禁止网站index.php文件

  allow是允许的意思,这里定义是允许蜘蛛爬取

  例如:Allow: /index.php 允许网站的index.php

  语法规则:

  1、每行开头字母大写

  2、冒号“:”是英文格式的冒号

  3、冒号后面有一个空格

  4、空格后面必须是斜杠

  例: Disallow: /admin

  robots常用语法和作用:

  1、User-agent: *

  Disallow: / 禁止所有搜索引擎访问网站的所有部分。

  2、Disallow: /admin/ 不允许抓取admin文件夹中的信息

  Disallow: /admin 所有路径中带有admin的都不允许抓取

  3、Disallow: /*?* 禁止访问网站中所有的动态页面

  4、Disallow: /.css$ 所有路径中带有".css"的都不允许抓取($指结束、停止)

  5、Sitemap: http://www.baidu.com/sitemap.xml

  Sitemap: http://www.baidu.com/sitemap.html(一点点seo优化技巧,原理自己悟。。)

  6、如果我们不允许蜘蛛抓取admin文件夹中的内容,但是允许抓取admin文件夹下的某个页面:

  Disallow: /admin/

  allow: /admin/**

  robots语法格式:

  1、User-agent:_____ 空白处为定义搜索引擎的类型;

  2、Crawl-delay:_____ 空白处为定义抓取延迟;

  3、Disallow:_____ 空白处为定义禁止搜索引擎收录的地址;

  4、Allow:_____ 空白处为定义允许搜索引擎收录的地址;

  实例:phpcms内容管理系统的robots.txt文件:

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /caches/禁止爬寻缓存目录下的所有文件

  Disallow: /phpcms/禁止爬寻phpcms的核心目录下的目录

  Disallow: /install/禁止访问安装包目录下的目录

  Disallow: /phpsso_server/禁止爬寻phpsso_server目录下的目录

  Disallow: /api/禁止爬寻接口目录下的目录

  Disallow: /admin.php/ 这里定义是禁止蜘蛛爬寻admin目录下面的目录

  robots的测试

  在百度站长工具中,东营网站建设添加网站后使用左侧的抓取工具的权限,就可以对网站的robots进行测试了。