51排名北京百度排名必威登录网址_刷百度排名行业领先【SEO快速排名】一站式服务商,帮助企业网站快速排名,快速上首页!| 网站地图
首页

主页 > 移动SEO搜索必威登录网址 > 搜索引擎蜘蛛的基本工作原理(百度排名必威登录网址)

搜索引擎蜘蛛的基本工作原理(百度排名必威登录网址)

百度排名必威登录网址 2020-01-08 移动SEO搜索必威登录网址 89 ℃


搜索引擎蜘蛛
搜索引擎蜘蛛的基本工作原理

  搜索引擎蜘蛛即Spider,是一个很形象的名字,把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

  网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

  如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

  对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。

  这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕),同时,由于数据量太大,在提供搜索时也会有效率方面的影响。

  因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页(每个搜索引擎的蜘蛛抓取的原则也都不同,具体可对照一下古月建站博客的《解读IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码》相关介绍来查询一下你的网站日志),而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

  由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数,例如,下图中所示:

  A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层,如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的,这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。

  对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

  网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。

  当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。

  网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索,而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

原标题:搜索引擎蜘蛛的基本工作原理(百度排名必威登录网址)

tag标签: 搜索引擎蜘蛛

搜索
网站分类
  • 百度SEO排名必威登录网址
  • 移动SEO搜索必威登录网址
  • SEO技术
  • SEO教程和培训
  • SEO问题解答
  • 必威网页
  • SEO案例
  • 标签列表
  • 友情链接
  • 用户体验
  • 网站排名必威登录网址
  • 必威网页方法
  • 网站内链必威登录网址
  • 百度排名必威登录网址
  • 搜索引擎蜘蛛
  • 原创内容
  • 网站必威登录网址
  • 百度下拉框
  • 网站首页
  • 网站外链
  • 精准关键词
  • 长尾关键词
  • 关键词挖掘
  • 核心关键词
  • 关键词布局
  • 关键词拓展
  • 百度百度排名必威登录网址
  • 关键词必威登录网址
  •  

    18665360949