网站logo
SEO
网站优化
seo369团队,专注SEO网站优化
百度关键词排名优化,先排名后付费
引领SEO见效果付费新潮流
联系电话
您现在的位置: seo优化关键词优化 

如何对网站的robots.txt进行设置来做seo优化

来源:SEO369  2018-02-22  关键字:seo优化 设置

    什么是robots.txt?这是一个文本文件,是搜索引擎爬行网页要查看的第一个文件,你可以告诉搜索引擎哪些文件可以被查看,哪些禁止。当搜索机器人访问一个站点时,它首先会检查根目录是否存在robots.txt,如果有就确定抓取范围,没有就按链接顺序抓取。

 robots.txt有什么用?为何需要用robots.txt这个文件来告诉搜索机器人不要爬行我们的部分网页,比如:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。说到底了,这些页面或文件被搜索引擎收录了,用户也看不了,多数需要口令才能进入或是数据文件。既然这样,又让搜索机器人爬行的话,就浪费了服务器资源,增加了服务器的压力,因此我们可以用robots.txt告诉机器人集中注意力去收录我们的文章页面。增强用户体验。

  1、用robots屏蔽网站重复页

  很多网站一个内容提供多种浏览版本,虽然很方便用户却对蜘蛛造成了困难,因为它分不清那个是主,那个是次,一旦让它认为你在恶意重复,你就惨了

  User-agent: *

  Disallow: /sitemap/ 《禁止蜘蛛抓取 文本网页》

  2、用robots保护网站安全

  很多人纳闷了,robots怎么还和网站安全有关系了?其实关系还很大,不少低级黑客就是通过搜索默认后台登陆,以达到入侵网站的目标

  User-agent: *

  Disallow: /admin/ 《禁止蜘蛛抓取admin目录下所有文件》

  3、防止盗链

  一般盗链也就几个人,可是一旦被搜索引擎“盗链”那家伙你100M宽带也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你的网站图片

  User-agent: *

  Disallow: .jpg$

  4、提交网站地图

  现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的

  Sitemap: http:-www-***-com/sitemaps/sitemaps.xml

  5、禁止某二级域名的抓取

  一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到

  User-agent: *

  Disallow: /

  以上五招robots足以让你对搜索引擎蜘蛛掌控能力提升不少,就像百度说的:我们和搜索引擎应该是朋友,增加一些沟通,才能消除一些隔膜。

seo优化,如何对网站的robots.txt进行设置

  robots.txt基本语法:

  1、robots.txt的几个关键语法:

  a、User-agent: 应用下文规则的漫游器,比如Googlebot,Baiduspider等。

  b、Disallow: 要拦截的网址,不允许机器人访问。

  c、Allow: 允许访问的网址

  d、”*” : 通配符—匹配0或多个任意字符。

  e、”$” : 匹配行结束符。

  f、”#” : 注释—说明性的文字,不写也可。

  g、Googlebot: 谷歌搜索机器人(也叫搜索蜘蛛)。

  h、Baiduspider: 百度搜索机器人(也叫搜索蜘蛛)。

  i、目录、网址的写法:都以以正斜线 (/) 开头。

  如

  Disallow:/

  Disallow:/images/

  Disallow:/admin/

  Disallow:/css/

  2、列举一些robots.txt 具体用法:

  (1)允许所有的robot访问

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

  或者建一个空文件”robots.txt”即可。

  (2)仅禁止某个机器人访问您的网站,如Baiduspider。

  User-agent: Baiduspider

  Disallow: /

  3、仅允许某个机器人访问您的网站,如Baiduspider。

  User-agent: Baiduspider

  Disallow:

  User-agent: *

  Disallow: /

  4、禁止访问特定目录

  User-agent: *

  Disallow: /admin/

  Disallow: /css/

  Disallow:

  要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),请使用以下内容:

  User-agent: Googlebot

  Disallow: /*?

  要指定与某个网址的结尾字符相匹配,请使用 $。例如,要拦截以 .xls 结尾的所有网址,请使用以下内容: User-agent: Googlebot

  Disallow: /*.xls$

  您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 代表一个会话 ID,那么您可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。在此情况下,您可以对您的 robots.txt 文件进行如下设置:

  User-agent: *

  Allow: /*?$

  Disallow: /*?

  Disallow: /*? 指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。

  Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。

  以上介绍多数都是Google的http:-www-google-com/support/we … cn&answer=40360,百度的大同小异具体可以看http:-www-baidu-com/search/robots.html

  一般网站查看robots.txt文件的方法是主页后面加robots.txt就可以,比如淘宝网的就是http:-www-taobao-com/robots.txt请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

  网站Robots.txt协议,你懂多少?

    网站Robots.txt文件,是网站与搜索引擎交流的通用协议,通过Robots协议的设置告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取:一方面可以做网站安全的防护,更重要的是用来做优化,减少无效页面的收录,提升站点的排名效果。..

    但是在实际的操作中,绝大多数的网站,在其撰写上都存在或多或少的欠缺,甚至由于技术性的错误撰写,还会导致网站降权、不收录、被K等一系列问题的出现。对于这一点,A5营销,包括我,在对客户的SEO诊断过程中,会经常遇到,可以算是很多站点的通病。今天写出这篇文章,就是来做一个分享:关于robots.txt协议,你写对了吗?

    一:设置成Allow全站点抓取

    百度收录的越多,网站的排名越高?这是绝大多数站长的认为,事实上也是如此。但是也并非绝对成立:低质量的页面收录,会降低网站的排名效果,这一点你考虑到了吗?

    如果你的网站结构不是非常的清晰,以及不存在多余的“功能”页面,不建议对网站开全站点的抓取,事实上,在A5的SEO诊断中,只遇到极少数的一部分网站,可以真正的做到全站点都允许抓取,而不做屏蔽。随着功能的丰富,要做到允许全站点抓取,也不太可能。

    二:什么样的页面不建议抓取

    对于网站功能上有用的目录,有用的页面,在用户体验上可以得到更好的提升。但是搜索引擎方面来讲,就会造成:服务器负担,比如:大量的翻页评论,对优化上则没有任何的价值。

    除此外还包含如:网站做了伪静态处理后,那么就要将动态链接屏蔽掉,避免搜索引擎抓取。用户登录目录、注册目录、无用的软件下载目录,如果是静态类型的站点,还要屏蔽掉动态类型的链接Disallow: /*?* 为什么呢?我们举个例子来看:

    上面是某客户网站发现的问题,被百度收录的原因是:有人恶意提交此类型的链接,但是网站本身又没有做好防护。

    三:撰写上的细节注意事项

    方法上来讲,绝大多数的站长都明白,这里就不做多说了,不明白的站长,可以上百度百科看一下。今天这里说一些不常见的,可能是不少站长的疑问。

    1、举例:Disallow; /a 与Disallow: /a/的区别,很多站长都见过这样的问题,为什么有的协议后加斜杠,有的不加斜杠呢?笔者今天要说的是:如果不加斜杠,屏蔽的是以a字母开头的所有目录和页面,而后者代表的是屏蔽当前目录的所有页面和子目录的抓取。

    通常来讲,我们往往选择后者更多一些,因为定义范围越大,容易造成“误杀”。

    2、JS文件、CSS需要屏蔽吗?不少网站都做了这个屏蔽,但是笔者要说的是:google站长工具明确的说明:封禁css与js调用,可能会影响页面质量的判断,从而影响排名。而对此,我们做了一些了解,百度方面同样会有一定影响。

    3、已经删除的目录屏蔽,很多站长往往删除一些目录后,怕出现404问题,而进行了屏蔽,禁止搜索引擎再抓取这样的链接。事实上,这样做真的好吗?即使你屏蔽掉了,如果之前的目录存在问题,那么没有被蜘蛛从库中剔除,同样会影响到网站。

    建议最佳的方式是:将对应的主要错误页面整理出来,做死链接提交,以及自定义404页面的处理,彻底的解决问题,而不是逃避问题。

  



说明:本文由SEO369团队编辑整理,有侵犯权益的地方请联系站长删除,如果需要了解更过SEO方面的知识请关注SEO369。
关键词优化logo
频道总排行
影响关键词排名的因素有哪些?
关键词排名优化:同一页面不同快照原因分析
网站关键词优化的三个基础问题
seo优化的关键词指的是什么呢
关键词优化的绝对路径和相对路径详细分析
如何对网站的robots.txt进行设置来做seo优化
做关键词排名优化最后的预估时间的长短分析
网站关键字优化攻略
关键词优化中优质与非优质新闻源内容的区别
网站优化的首页代码优化的技巧
您可能还想了解
大型SEO网站定位和优化策略深度分析
整站优化的百度排名点击浅析
网站整站优化的核心是怎样的呢
外链对seo优化结果的影响和重要性
做整站优化人员怎么写好文章
整站优化过程中网站排名掉了是什么原因造成的
整站优化过程中,如何看出网站被降权
整站优化过程中布局网站关键词
浅谈整站优化过程中不稳定的因素
网站优化要避免走入seo的几个误区
栏目导航
SEO基础
SEO优化
SEO技术
SEO教程
快速排名
关键词优化
整站优化
百度SEO
网站建设
网站优化
SEO | 网站优化 | 各地SEO资讯 | 网站地图
【SEO369】探索SEO优化的奥秘,专业提供企业SEO、网站优化、网站建设服务
版权所有:SEO369  备案号:津ICP备08002309号
在线客服
网站优化
QQ: 41868630
TEL: 4008001220