SEO网页质量直接测度指标
发布时间:2008-10-23
网站质量、网页质量是SEO经常提的一个SEO术语。但是具体的,搜索引擎是如何判断一个网页、网站质量的,相信大部分的SEO对此都没有了解。
网站质量、网页质量是SEO经常提的一个SEO术语。但是具体的,搜索引擎是如何判断一个网页、网站质量的,相信大部分的SEO对此都没有了解。主要原因是这些算法是搜索引擎公司的核心机密,搜索引擎公司几乎不会公布关于算法的任何一点蛛丝马迹。但是思亿欧(www.seo.com.cn)通过对搜索引擎原理以及搜索引擎主流网页质量分析技术的研究,我们大概也能探知60%。
网页质量直接测度指标,这篇文章是思亿欧网站权重研究系列文章之三。系列文章之一:网页质量 系列文章之二:结合网页质量分析的搜索模式
1.基于网页链接关系的评价指标
基于网页链接关系的分析方法认为,能够被更多网页链入的流行网页是更为重要的网页,也是质量较高的网页。事实证明这个方法比较成功,如Google的PageRank方法就采用了这样的方式来对网页进行加权。
这个方法有效的主要原因在于网络环境的特殊性。可以这样认为,在Web网络上没有整体上的质量控制,所以Web网页不具有类似于出版环境下的权威性评价特征(在出版环境下,相关文献可以通过同行评审等方法来获得别人的认可,从而表现出高质量),所以Web用户就需要使用其他一些方法来对网站的专业能力和可信度进行判断。其中,比较常见的方法就是网页的链人数量和链入网页的质量.显然,网页链人数量越多或者链入网页的质量越高,都能反映出当前网页的质量较高,如被大学、图书馆或者有价值的网站链接的网站通常都是一些具有高质量的网站。同时,各个网页也愿意对其他网页建立链接关系,因为在缺乏整体网页质量控制的条件下,网页可以通过建立指向高质量网页的链接来表现自己的内容有较好的出处和来源,对来源网页的链接从另一方面来看就是希望得到用户对当前网页的认可,这在一定程度上可以解释为什么在Web环境下网页超链很普及的原因。
然而,虽然这个方法便于实施,很多搜索引擎系统都能提供基于网页超链关系的分析技术,并将其应用到网页推荐服务上,但是它也存在很多问题。例如,上述评价标准基于一个基础的前提,那就是链人数量较多的网页,即流行的网页一定是质量较高的网页。但是这存在很多问题,如那些在检索结果中排名靠后的不流行网页就不太可能被用户访问到;相反,那些非常流行的网页由于获得较高的链人数量,排名靠前,所以更有可能被更多的用户访问到,从而越来越流行,越能表现出质量较高的状态,产生了所谓的“富越富(rich-get-richer)”现象。这显然并不公平,特别是对于一些高质量的现有网页和一些不可能获得太多链人数量的、新出现的高质量网页而言,更为不公平。
2.基于网站流量的评价指标
此方法利用网站流量来对网站的网页质量进行评价,如Alexa,它通过站点访问流量之间的对比关系来对网站进行排名,同时它也参考网站的链入节点数量和用户的评论信息。但是具有流行话题的网站通常会具有更大的访问流量,所以Alexa没有提供针对不同主题下的网站排名情况,仍然显得不是很完整。也有学者提出基于不同主题的网站流量排名方法,不过主题范围较为宽泛。
3.基于Web用户访问模型的评价指标
正是因为上述方法存在诸多不足,所以有学者提出网页质量可以表示为一个寻找指定信息的随机访问用户愿意访问到此网站网页的概率,如Topic试验系统。不同于基于网页链接关系的评价指标,这个指标建立在一个假设基础之上,即如果用户在浏览一个网页后,在较短的时间内对其建立了超链,则可以认为这种网页具有较高的质量,所以可以将所有网页展示给所有用户,通过了解用户是否在较短的时间内对其建立超链来计算用户对它们的喜爱程度,并以此来得到网页的质量。显然,虽然一位用户对网页建立超链的行为并不一定反映出该网页的质量,但是如果面向大多数用户,这种统计意义上的汇总信息将能在客观上表明网页的质量。因此,这种定义方法可以被称为基于用户访问模型的方法。
由于网页质量和网页本身的流行度也存在关联,所以传统的基于网页链接关系的评价方法也间接地考虑了网页的质量,网页质量通过网页被喜好的程度来测量,而网页被喜好的程度则可以通过喜欢该网页的用户数量来决定,而这个喜欢该网页的用户数量又可以通过网页的链入数量来间接测度,所以链人数量这个指标正比于网页质量指标。不过,它对所有网页提供了相同的面向用户机会,所以新出现的网页就没有可能比原有的流行网页获得更多的链人数量。从这一点来看,传统的基于网页链接关系的评价方法对网页质量的考虑还是不充分的,它只是利用某个时间点上网页的链接关系来做出判断,而在基于用户访问模型的网页质量定义中,重点强调了在较短的时间内建立链接的特点,所以必须通过在动态时间间隔内的网页链接关系变化来做出测度。也就是说,网页流行度可以被定义为在一个时间点上用户喜欢该网页的程度,而网页质量定义为在用户发现网页时,在单位时间内喜欢该网页的程度。
显然,网页质量和网页流行度存在正相关关系,但是存在网页被访问概率的影响因素。其中的网页质量可以看成是网页的客观指标,不会随着时间发生改变,所以在网页质量既定的情况下,网页流行度主要是由网页被访问的概率来决定的。
当然,这种指标的设计不能说没有问题,它会产生主题偏向性(topic bias)。例如,话题流行度和质量。一般而言,如果网页谈论的话题是较为流行的话题,相对而言,该网页要比那些只谈论过时话题的网页更有质量。不过,从网页质量来看,这一点似乎也很正常,毕竟测量网页真实质量的方法是要考虑网页话题的内容。同时,由于搜索引擎在返回结果中,一般只会将需要排序的网页限定在一个较少的范围内,作为同一个用户查询的返回结果,这些网页之间在语义上基本接近,因此这些网页质量之间的相对大小还是具有可比性的。所以,在Web信息搜索环境下,这种网页质量直接测度指标较为适用。