搜索引擎蜘蛛抓取网站页面过程的详细解读
努力对网站优化是很好的,但关键是搜索引擎如何看待你的网站。如果你的网站不遵循最基本的SEO相关标准,即使最谨慎的优化,并不能保证在搜索结果中处于顶部靠前的位置,这就可以肯定,这个网站在搜索引擎中的“分数“并不好。这里有一种方法可以事先查看搜索引擎是如何看待你的网站的:使用一个搜索引擎模拟器。
搜索引擎的蜘蛛抓取页面的一般过程是这样的。
首先,收集待索引网页的url。
搜索引擎的蜘蛛一般分为两类,这第一类的主要工作就是收集网页的中有效的URL。它们的任务是一刻不停地扫描Internet资源,以随时更新其搜索引擎庞大的url列表以供它的第二类蜘蛛使用。也就是说,当这一类蜘蛛访问我们网页的时候,并不在于索引我们的网页,而是在寻找网页中的所有有效链接。
关于有的站长在自己的访问日志中发现多个蜘蛛IP爬自己站的情况。
我们常用的搜索引擎每天要处理数以亿计的信息,没有一个大型的搜索引擎公司(GOOGLE或百度之类)不配备上万台服务器来共同执行这个工作,因此搜索引擎都拥有不同的数据中心,也就是说有多个robots来检索你的站是很正常的事情。
不过这也仅限于第一类蜘蛛,在索引页面的时候,搜索引擎会限制某个特定的数据中心来让专门索引页面的蜘蛛检索你的站。
因此朋友们从服务器访问日志中时常可以看到源自不同IP的蜘蛛,在很短的时间内频繁访问网站。不过千万不要高兴得太早,也许其根本不是在索引你的网页而只是在扫描url。
补充一下,第一类蜘蛛索引时记录的信息主要包括网页的url、最终修改时间等。
至于网页的Head信息是第一类蜘蛛来获取还是第二类来获取,很多人都有不同的看法,但我还是比较赞成第一类蜘蛛访问时就能索取这个信息
搜索引擎蜘蛛解释
基本上所有的搜索引擎蜘蛛都有同一原则:它们在网上”爬行“并且索引页面,将结果放置到数据库中,迟些运用各种算法,对所搜集的页面确定网页排序,关联性等。计算排名的算法在不同的搜索引擎之间是有很大差别的,然而它们抓取索引网站页面是差不多统一的,非常重要的是,你需要了解不同的蜘蛛的特点。
搜索引擎是机器人,它们不像一个真正的访客”人“去读你的网站页面。它们往往只查看阅读特别的区域(文本),并且不查看很多额外的访客所感兴趣的元素(如Flash,Javascript等)。蜘蛛能够判别访客访问了你的网站,所以考虑搜索引擎的喜好和它们所讨厌的是很必要的。
Flash, Javascript, 图片内的文本还是 Frames文本框?
Flash, Javascript 和图片上的文本对搜索引擎来说是无法看到的;Frames 在搜索引擎排名中似乎是个灾难;它们在网页设计中是很有用的,但是作为搜索引擎,使用它们是错误的。一个不可思议的错误是,将关键词埋藏在动画中,制作一个 Flash导入页(是否使用 Frames,这会导致情况更糟),通过搜索引擎模拟抓取工具检查一个包含 Flash和图像的页面(最好没有出现其他的文字,或者出入链接),你会看到,该页面在搜索引擎眼里,几乎是空白。
通过这种方法抓取你的网站会告诉你这个事实:Flash和 Javascript不是 SEO友好的因素。在某种意义上,蜘蛛就是在浏览文本,它们不能看到在文本以外的内容。所以使用一个包含文本的图片,对蜘蛛来说,是空白,并且会忽略它。一个很有效的处理(被认为是 SEO的最有效的测试)是在 <img alt 标签中添加相关意思的描述,但不要增添太多关键字,以防止关键字陷阱。在处理链接的时候,alt属性关键字尤为重要。你可以在 Flash周围添加对 Flash的文本描述,但再次强调,关键在于界限,避免过度优化。
你的链接搜索引擎可以访问么?
搜索引擎模拟抓取工具可以对你的链接有帮助:可以查看你的链接是否导向了正确的连接位置。举例来说,链接交换中,有些交换网站通常通过 Javascript把假的无效链接到你的网站(如:使用鼠标事件使得链接无效),这本身并不是一个真正的搜索引擎会看到和跟进的链接。因为搜索引擎不会采纳这些无效链接,你就会知道这样的链接出现了错误。
如果你碰巧在你的页面上上千个超级链接(尽管推荐的链接数不要超过100个),这样你会很难逐个检查它们是否是有效的。例如:如果你有页面显示“403禁止“错误,”404页面未被找到“或者类似的错误,防止蜘蛛进入该页面,可以肯定的是,这一页面将不会被索引和收录。有必要指出的是,搜索引擎模拟抓取并不处理这样的“403“或者“404“错误,只是在检查相关的链接URL,如果你要对这方面进行检查,请使用其它的SEO工具:如Xenu等。
搜寻你的关键词
有特定的如 keywords playground,和网站关键词推荐等工具,来处理关键词相关细节,搜索引擎模拟抓取工具也可以帮助查看蜘蛛眼里关键词的分布情况。这一点有何重要性?因为在第一段文本内容中的关键词的权重要高于在页面内容中间段或者末尾段;并且如果在视觉上关键词出现在首段,然而搜索引擎并不是这么看待。考虑带有表格的页面标准,如页面中的带有下拉菜单的导航条中的文本,以及采用图片时使用的 alt标签,都可能成为搜索引擎眼中的重要的内容部分。
动态页面还有待观察(尤其对于在 URL中带有很多问号参数的):一个普遍的观点是:尽管索引并抓取了,蜘蛛不喜欢这样的动态页面。运行搜索引擎模拟抓取可以得出一个让搜索引擎接受你的页面情况。你可以查找到如何处理对待搜索引擎和动态的URL的建议。
Meta 关键词(keywords)和描述(description)出现在 html页面中。
- 最新评论
