1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

从IIS日志出发:发现并解决收录的几个思路

本帖由 萨科奇2011-08-20 发布。版面名称:主机讨论

  1. 萨科奇

    萨科奇 New Member

    注册:
    2011-05-13
    帖子:
    1,031
    赞:
    0
     网站的收录一直是个大问题,那么如何解决网站存在的收录问题,首先就需要从根源找到原因所在,那就是IIS日志。IIS日志是搜索引擎爬行网站的一个记录,通过它能清晰的看到蜘蛛爬行网页的总时间,单页时间,爬行深度,是否有多次重复抓取等,看到之后我们就需要对症下药,从而从根本上解决网站收录存在的问题。好了,下边从以下几个方面做分析。

      其一、过度抓取的URL问题

      首先看下是否有过度抓取问题,这个很简单,把IIS日志用dw打开,然后复制一个URL查找全部就可以了,或者使用一些高级的IIS日志分析工具也能直接看得到。如果存在很多URL被蜘蛛访问了多次,那么很有可能是因为是首页或者距离首页点击次数较近的页面,一般的调整就是需要减少这些URL链接个数。过度抓取的URL会浪费蜘蛛爬行的整个时间。

      其二、是否存在重复内容

      通过第一步之后,还能发现一个问题就是重复内容,如果有些URL被蜘蛛抓取了很多次,那么有可能这是同一内容的不同URL,比如静态的与动态的,比如一些B2C的排序页面,这些功能性的页面提供的内容都没有过多差别,但是URL可能不同。要使用robots屏蔽掉。

      其三、蜘蛛没爬行过的URL

      这要借助于脚本实现,把你网站全部URL找出来,然后把蜘蛛爬行过的URL找出来,然后做对比,找出那些从来没有被蜘蛛爬行过的URL,然后分析原因,是这些URL没有链接、目录过深还是URL参数1.99传奇过多的原因?确定原因之后改正,日后继续观察收录情况。

      其四、整体内链结构如何

      看你网站的整体内链结构,自己点击测试,看首页到内页需要几次点击,如果你多次点击才能到达一些内页,那么爬虫从1.80金币版首页到内页也就需要更多的时间。这样自然就越浪费时间,所以调整内链结构,把更多的内容通过内链让蜘蛛更好的爬取到。

      其五、访问速度如何

      访问速度是受多个方面的影响1.80战神复古,要从服务器到后台再到前端仔细查看,是否还有优化的余地。在保证页面效果的前提下,减少html代码的整体体积。将js和css单独引入,html单独存在,如果考虑的仔细,URL的静态化就是必须的,因为过长的动态url也会影响到传输速度等。