手机便捷访问,请点此处
医院买卖小程序

医管攻略

首页 > 医管攻略 >  其他

蜘蛛是怎么样爬取一个网站内容的?

14年10月06日 阅读:12633 来源: 王发利原创

  问题:蜘蛛是怎么样爬取一个网站内容的?

  有人在群里喊说“有人知道网站爬去蜘蛛的资料没,蜘蛛它的爬取规律到底是怎么样的?蜘蛛是怎么样爬取一个网站内容的?”就此问题,我们通过大家的意见整理成文,也算是一种学习和参考。那么,对于蜘蛛是怎么样爬取一个网站内容的我们下面一一道来。

  介绍蜘蛛如何爬取网页之前不得不说的是搜索引擎的工作过程,大致分为蜘蛛发现网页——>爬取网页——>分析处理网页——>建立索引库——>提供用户检索,其实简单的也就三步,抓取,处理和供用户检索服务。

spidercl.jpg

  蜘蛛是怎么样爬取一个网站内容之规则图解

  可以看得出,蜘蛛爬取网页是整个工作中的正真的第一步。这个第一步如何走就显得很重要,一般按照搜索引擎的规则是先去爬取那些百度白名单网站或一些信任度较高的网站和页面,例如一些高权重和网站首页都是优先被爬取的对象。在蜘蛛爬取网页的过程中会发现一些网站链接,它会把这些链接保存在自己的数据库当中,然后再按照一定的规则去一次抓取这也链接的网页。这就涉及到抓取的规则。

  搜索引擎蜘蛛抓取网页的规则:

  高权重、高信任度优先,权重越高、信任度越大抓取相对越频繁,如网站首页和内页对比就是一个很好的例子。除了这些,蜘蛛整体的抓取策略采用的事a.广度优先和b.深度优先原则,在工作过程中一般是二者综合采用。

  举一个简单的例子,如A页面有链接B、C、D,B页面有B1、B2、B3,C页面有C1、C2,D页面有D1、D2,B1页面有b1、b2页面链接。

  a.广度优先原则,蜘蛛爬取了A页面,发现了BCD页面,就会将CBD挨个爬取完毕,再去B页面的B1、B2、B3或C页面的C1、C2或者D页面的D1、D2,即使B1页面有b1、b2页面也要等抓取完B1页面同层级,再去抓取下一级b1、b2。

  b.深度优先原则,和广度优先正好反过来,蜘蛛抓取了A页面,发现了B页面就会继续抓B页面,之后又发现了B1页面,再继续抓取B1页面,发现了b1页面,会再次继续抓取b1页面,知道抓完毕才会返回来从新开始。

  单纯的讲蜘蛛抓取网页的规则是上面说的这些大致方向没错,但是在实际抓取过程中不仅仅是这些因素,还有网站的信任度、权重等因素的影响,很多时候是广度优先和深度优先共同作用的。如,在爬取到B页面时,不是继续爬取B1页面,而是分别爬取了B1、B2、B3后再去从C页面开始,爬取C1、C2。

  理解什么是广度优先和深度优先其实不难,这里有一个简单的方法,记住同级优先抓取——广度优先,也叫横向抓取;一抓到底——深度优先,也叫纵向抓取(为了方便理解暂且这么说)!

  究竟蜘蛛是怎么样爬取一个网站内容的,其实大致原理就是如此,在一定的抓取规则下,蜘蛛发现网页,在按照一定的规则去抓取网页,更详细的内容可以看考《SEO教程之搜索引擎的工作原理是什么》一文。

  搜索引擎蜘蛛相关知识介绍:

  当你的新站上线之后,你是不是遇到过,sogou蜘蛛,360蜘蛛都很快滴爬取了你的网页,唯独百度蜘蛛却迟迟不肯到访,及时来了也是抓取一两条就走了,时隔几日观察网站日志依然如此,怎莫办,是不是就想让百度蜘蛛能快速爬取网站内容呢?西安SEO王发利博客推荐一下做法,来增加百度蜘蛛的友好度,来增加你网页快速被抓取的几率。

  1、制作结构清晰的网站(蜘蛛爬取网站更快捷方便)

  2、建立完善的网站地图,最好能将网站的全站url都包含在里面(蜘蛛发现网页链接更容易)

  3、robots.txt文件撰写完善,写入sitemap地址(蜘蛛访问网站会优先访问此文件)

  4、能建立百度ping机制最好建立(主动告诉百度网站有更新)

  5、利用百度站长工具提交URL(包括robots.txt、sitemap地址)

  6、适当地发一些外链(收录好的站发外链快尽快让百度发现)

  本文小结:

  到底百度蜘蛛是怎么样爬取一个网站内容的,其实不光光是百度,其他的搜索引擎蜘蛛对于爬取流程大致都是一样的。发现,抓取。如何让蜘蛛尽早发现,抓取网页并收录,获得初步排名这是我们需要做优化的第一步,也是很重要的一步。

 

本文(图片)由作者(投稿人)自主发布于 @华夏医界网 ,其内容仅代表作者个人观点,并不代表本站同意其说法或描述,其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性和及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容(包含文中图片的版权来源),本站仅提供信息存储服务,不承担前述引起的任何责任。根据《信息网络传播权保护条例》,如果此作品侵犯了您的权利,请在一个月内通知我们(文章来源下方“侵权申诉”按钮)或将本侵权页面网址发送邮件到535905836@qq.com,我们会及时做删除处理。 欢迎网友参与讨论及转载,但务必注明"来源于www.hxyjw.com"
发  布
猜你喜欢
460阅读

30亿建肿瘤医院,为何仅2年多就破产?民营医院控制好规模很关键!

作者:元辰 时间:2025-01-15 17:47:17 文章来源:原创

305阅读

我说居民医保缴费服务的知晓率不好,居然被喷了下

作者:码万祺 时间:2025-01-15 17:47:17 文章来源:原创

341阅读

死差损益:医疗服务大数据镰刀,消灭没有用的健康险

作者:码万祺 时间:2025-01-15 17:03:01 文章来源:原创

608阅读

医院为何对前沿AI“不感冒”?医企合作痛点与未来出路在哪里

作者:姬华奎 时间:2025-01-15 11:01:09 文章来源:原创

603阅读

八代光子要不要买

作者:何嘉焜 时间:2025-01-15 10:37:09 文章来源:原创

616阅读

医保商保一站式结算:联动医院、医联体、体检机构

作者:码万祺 时间:2025-01-15 10:27:03 文章来源:原创

王发利
简介
王发利,现任马应龙肛肠连锁医院SEM主管,长期专注SEM营销,更擅长SEO,精通微营销,注重实践。从业于民营医疗营销多年,对医疗网络营销运营管理具有独到见解,喜欢交友、与大家一起分享心得。建有独立博客—王发利博客