手机便捷访问,请点此处
医院买卖小程序

医管攻略

首页 > 医管攻略 >  其他

Robots.txt要怎么写 Robots.txt的写法问题

14年09月10日 阅读:10607 来源: 王发利原创

  Robots.txt要怎么写 阐述Robots.txt的写法问题

  今天发现公司网站一个用来测试的站竟然被大量收录,而我们的本意是不希望其被收录的,因为之前那是程序用来测试的,不用优化所以也就没告诉我,现在我发现了,而且是测试过后就将很多数据删除了,这会影响到主站,因为测试的是一个主站的耳机域名,绑定是一个二级目录。于是我着手针对此站写了一个robots协议:

  User-agent: *

  Disallow: /

  robotsxy.jpg

  当然,robots协议并非是上面写的那么简单,上面是告诉任何搜索引擎不要收录的我网站内容而已,而很多情况下我们是不会这么做的,只是不希望某一部分不被收录和建立索引而已!那么,就牵扯到了robots.txt的写法问题,这里就借助王发利博客一起来看看robots协议的一些具体写法!

  定义:什么是robots?

  Robots.txt是一个文件,是用来告诉搜索引擎那些网页可以收录,那些不可以,是规范搜索引擎蜘蛛在索引网站时的索引范围。更好地保护那些我们不想被别人看见的隐私,私密文件! 这个很重要哦,看看曾经有人还为此打官司了,详文见《Robots协议案:百度败诉于360 法院判为自由竞争》!

  Robots.txt文件建立注意事项:

  1. 文件必须放在网站根目录下。

  2. 文件名称必须全部用小写。

  3. 即使你允许全部的网站内容均可被抓取,建议还是建一个空的robots文件最好。

  4. Robots.txt虽然禁止了收录,但是有时候还是会出现在搜索结果中,比如非常热门和用户急需的某些信息,如果要完全禁止,建议写 Meta Robotx属性。例如:

  <meta name="robots" content="index,follow">;

  <meta name="robots" content="noindex,follow">;

  <meta name="robots" content="index,nofollow">;

  <meta name="robots" content="noindex,nofollow">;

  怎么使用Robots Meta标签?

  当content需要包含多个属性的时候需要用英文逗号隔离,注意同种属性正反两个方面(例如:index与noindex)不能同时出现在content之中。

  通常content属性里面的包含的标签有:

  NOINDEX -不索引当前页面

  NOFOLLOW -不跟踪当前页面中所有的链接

  NOARCHIVE -在搜索结果中不保存当前页面的快照

  NOSNIPPET - 在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照

  NOODP -搜索结果中不使用

  DMOZ中的描述信息,Yahoo、MSN也支持此类标签。

  NONE -不索引当前页面以及其中的所有链接,跟“NOINDEX, NOFOLLOW” 含义相同

  5. Robots只是一种规则,需要搜索引擎的配合。如若搜索引擎不遵守则无意义。

  Robots.txt标准写法例举:

  例1. 禁止所有搜索引擎访问网站的任何部分

  User-agent: *

  Disallow: /

  例2. 允许所有的robot访问网站的任何部分

  User-agent: *

  Disallow:

  例3. 禁止spider访问特定目录

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /data/

  注意事项:1.三个目录要分别写。2.请注意最后要带斜杠。3.带斜杠与不带斜杠的区别 (带斜杠/ 表示禁止某个目录下的所有文件被索引,不带斜杠/表示只禁止该该目录,如不带斜杠时wangfali.com/marketing-news 会不被收录,但是wangfali.com/marketing-news/3608.html 还是会正常收录)

  例4. 允许访问特定目录中的部分url

  假如王发利博客只需要seo-course目录下的3491.html允许访问即可,那就写:

  User-agent: *

  Allow: /seo-course/3491.html

  Disallow: /seo-course/

  注意事项:允许收录优先级要高于禁止收录。Disallow: /a/ 必须写在 Allow: /seo-course/3491.html 之后。其他目录以此类推,只需要将seo-course和3491替换成自己对于的目录和url即可!

  例5. 通配符的使用例举,通配符包括("$" 结束符;"*"任意符)

  User-agent: *

  Disallow: /*?* (?表示含动态的url)

  例6. 禁止搜索引擎抓取网站上所有图片

  User-agent: *

  Disallow: /*.jpg$

  Disallow: /*.jpeg$

  Disallow: /*.gif$

  Disallow: /*.png$

  Disallow: /*.bmp$

  如果还有其他文件格式,照着加上即可,具体情况具体分析,掌握这些语法规则以及通配符的使用大多数情况是可以帮你解决问题的!

  例7. 仅禁止某一个搜索引擎蜘蛛的访问例举

  ——禁止百度访问您的网站:

  User-agent: Baiduspider

  Disallow: /

  ——禁止谷歌访问您的网站:

  User-agent: Googlebot

  Disallow: /

  注意事项:这里只是将User-agent: * 中的星号 * 换成了具体的搜索引擎蜘蛛名称,*代表任意!其规则是:

  User-agent: 蜘蛛名称

  Disallow: /不允许访问的部分

  allow: /允许访问的部分

  常识补充:常见的搜索引擎蜘蛛名称:

  百度:Baiduspider ;Vista:Scooter ; Alexa:ia_archiver ;谷歌:Googlebot ; Fast:FAST-WebCrawler ; Msn:MSNBOT ; 360:360Spider ; 搜狗:Sogou News Spider ; SOSO:Sosospider ; 必应:bingbot ; 雅虎:“Yahoo! Slurp China”或者Yahoo! ; 有道:YoudaoBot,YodaoBot ; 即刻:JikeSpider 等!还要一些其他的一般用不到,如需要自己去查询了,这里就不再赘述了!

  本文综述:对于Robots.txt要怎么写以及Robots.txt的写法问题就到此为止吧!更加详细的内容你还可以去看看百度官方的解释:http://help.baidu.com/question?prod_en=search&;class=499 不管你是否知道这个robots.txt 是什么意思,robots.txt怎么写都没关系,本文也许可以帮您解惑,还要就是实在自己懒得写可以百度一下robots在线生成,网上有很多生成工具!

 

本文(图片)由作者(投稿人)自主发布于 @华夏医界网 ,其内容仅代表作者个人观点,并不代表本站同意其说法或描述,其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性和及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容(包含文中图片的版权来源),本站仅提供信息存储服务,不承担前述引起的任何责任。根据《信息网络传播权保护条例》,如果此作品侵犯了您的权利,请在一个月内通知我们(文章来源下方“侵权申诉”按钮)或将本侵权页面网址发送邮件到535905836@qq.com,我们会及时做删除处理。 欢迎网友参与讨论及转载,但务必注明"来源于www.hxyjw.com"
发  布
猜你喜欢
538阅读

除了六大部门,这个神秘“第七部门”也在监管医保基金!医院务必警惕!

作者:晨晓 时间:2024-04-25 17:20:22 文章来源:转载

661阅读

建设县域紧密型医共体重在求实求效

作者:徐毓才 时间:2024-04-25 17:17:03 文章来源:原创

394阅读

如医险闭环不好做,多考虑健康服务小闭环

作者:码万祺 时间:2024-04-25 17:10:51 文章来源:原创

624阅读

胰岛素集采续约:看门诊统筹药店价差、化药集采

作者:码万祺 时间:2024-04-25 10:39:29 文章来源:原创

968阅读

即将投入运行大型三级医院!知名民营品牌加速向综合医疗“转型” !

作者:祁冉 时间:2024-04-25 10:25:13 文章来源:转载

746阅读

DIP付费模式下,医保与医院如何精准分工?

作者:齐厄 时间:2024-04-25 10:07:08 文章来源:转载

王发利
简介
王发利,现任马应龙肛肠连锁医院SEM主管,长期专注SEM营销,更擅长SEO,精通微营销,注重实践。从业于民营医疗营销多年,对医疗网络营销运营管理具有独到见解,喜欢交友、与大家一起分享心得。建有独立博客—王发利博客