利于优化排名的Robots.txt协议正确写法

  • A+
所属分类:SEO入门
摘要

Robots协议也就是robots.txt文本文件,当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存robots.txt,robots协议书写正确与否直接影响乐天堂足球app能否被搜索引擎抓取。如果存在,搜索爬虫就会按照该文件中的内容来确定访问的范围;如果robots.txt文件不存在,搜索爬虫将会抓取乐天堂足球app上所有没有被口令保护的页面。

说到robots我们先看一个例子:

说到百度和淘宝,不得不提一件事,2008年,马云做了个异常霸气的决定,那就是淘宝在robots.txt协议中屏蔽百度蜘蛛的抓取,这也就是为什么淘宝店铺无法通过百度搜索引起获得流量的原因,对此马云的解释是百度带来的流量都是垃圾流量,没有转化率,不过真的是这样的吗?

百度在2008年很高调的推出了百度有啊购物平台,立志成为最好的电商平台,成了淘宝的直接对手,面对如此强大的对手,马云必须在其扩大之前消灭他,屏蔽百度收录淘宝可以导致消费者在购物之前不会在百度中搜索产品类名称,比如牛仔裤、休闲裤、连衣裙等,因为淘宝已经强大到让消费者把淘宝网购这两个词等同的地步,当用户不再百度上面搜索产品名称,那么百度就将失去网购这块市场。事实证明马云的这招很成功,让百度失去了网购市场,打败了百度有啊,百度有啊不久就接近关闭状态了。

淘宝的robots协议:

  1. User-agent: Baiduspider
  2. Disallow: /
  3. User-agent: baiduspider
  4. Disallow: /

百度百科对robots的定义:Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),乐天堂足球app通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。简单来说就是乐天堂足球app和搜索引擎签署的一个协议,协议里面的路径不要抓取收录。

为什么要有robots协议

Robots协议也就是robots.txt文本文件,当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,搜索爬虫就会按照该文件中的内容来确定访问的范围;如果robots.txt文件不存在,搜索爬虫将会抓取乐天堂足球app上所有没有被口令保护的页面。

乐天堂足球app里面有低质量、死链接内容这样的建议屏蔽,百度如果抓取你的好多低质量页面会拉低乐天堂足球app的质量降低权重影响搜索引擎对你乐天堂足球app的印象,比如男女开始谈对象都会把不好的一面藏起来,还有乐天堂足球app后台会员隐私一般都屏蔽。

robots协议写法

User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录,说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。

"*" 通配符,匹配0或多个任意字符。

"$"匹配行结束符。

Sitemap 乐天堂足球app地图路径

百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

举例说明

例1:禁止所有搜索引擎访问乐天堂足球app的任何部分

User-agent: *

Disallow: /

例2:允许所有的蜘蛛访问乐天堂足球app任何部分你也可以建立一个空文件robots.txt

User-agent: *

Allow: /

例3:只禁止某一个蜘蛛访问您的乐天堂足球app

User-agent: Baiduspider

Disallow: /

例4:只允许某一个蜘蛛访问您的乐天堂足球app

User-agent: Baiduspider

Allow: /

User-agent: *

Disallow: /

例6:禁止蜘蛛抓取特定的路径

User-agent: *

Disallow: /aaa/ 禁止所有蜘蛛访问"aaa"路径下的文件

Disallow: /bbb/ 禁止所有蜘蛛访问"bbb"路径下的文件

Disallow: /aaa/ccc/ 禁止所有蜘蛛访问"aaa"下面的ccc路径

Disallow: /aaa/*.html 禁止访问aaa路径下的所有带.html为后缀的路径

Disallow: /*?* 禁止访问乐天堂足球app中所有的带问号路径即动态页面

Disallow: /*?$ 禁止访问乐天堂足球app以问号结尾的任何路径

Disallow: /*.php$ 禁止访问以.php为结尾的任何路径

例7:仅允许访问某个特定的路径

User-agent: *

Disallow: /

Allow: /*.html 只允许访问乐天堂足球app以 .html 为后缀的路径

例8:禁止抓取某种格式图片

User-agent: *

Disallow: /*.jpg$

Disallow: /*.gif$

Disallow: /*.png$

Robots协议的检查

乐天堂足球app的robots协议是一个txt文本文件,robots.txt文件写好后要放到乐天堂足球app的根目录,可以通过访问路径:你的域名/robots.txt来检查正确性,可以在百度的站长平台检查协议正确与否,同时把乐天堂足球app地图路径加进去最好,有利于蜘蛛爬去和收录您的网页。

Robots协议的检查

Robots协议书写注意事项

  1. robots协议里的面首字母要大写,字母后面的冒号必须是英文状态;
  2. 冒号后面"/"之前还有空格,在"/"后面如果只是屏蔽某个特定路径,千万不要再有空格,否则搜索引擎就会认为你是屏蔽整个乐天堂足球app。
  3. 如果您希望搜索引擎收录乐天堂足球app上所有内容,请勿建立robots.txt文件。

这里区别一下“Disallow: /aaa/'和"Disallow: /aaa",前者这是屏蔽了aaa后面的路径不被蜘蛛抓取到,而后者则表示连同aaa这个路径也被屏蔽掉。

织梦的默认写法:

  1. User-agent: *
  2. Disallow: /plus/ad_js.php
  3. Disallow: /plus/advancedsearch.php
  4. Disallow: /plus/car.php
  5. Disallow: /plus/carbuyaction.php
  6. Disallow: /plus/shops_buyaction.php
  7. Disallow: /plus/erraddsave.php
  8. Disallow: /plus/posttocar.php
  9. Disallow: /plus/disdls.php
  10. Disallow: /plus/feedback_js.php
  11. Disallow: /plus/mytag_js.php
  12. Disallow: /plus/rss.php
  13. Disallow: /plus/search.php
  14. Disallow: /plus/recommend.php
  15. Disallow: /plus/stow.php
  16. Disallow: /plus/count.php
  17. Disallow: /include
  18. Disallow: /templets
  • 微信号:xiaomseo
  • 微信扫一扫欢迎加我为好友
  • weinxin
  • 微信公众号:1015电影网
  • 全网VIP影视免费看
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: