做SEO优化的朋友都知道HITS算法是Web构造挖掘中最具有威望性和应用最广泛的算法。但这个算法貌似不是很好懂,一般不经过前思后想普通人是很难想通透的,如果有一天你搞得懂了HITS算法,也就意味着你的优化技术已经高人一等了。
该算法的大概思想是指利用版面之间的引用链来发掘隐含在中间的有用信息(eg:威望性),具有计算简单且效率高的特点。HITS算法通过两个评价权值——内容威望度(Authority)和链接威望度(Hub)来对网页质量举行估价。
内容威望度与网页亲身直接提供内容信息的质量息息相关,被越多网页所引用的网页,其内容威望度越高;链接威望度与网页提供的超链接版面的质量相关,引用越多高质量版面的网页,其链接威望度越高。
HITS算法觉得对每一个网页应该将其内容威望度和链接威望度隔开来思忖,在对网页内容威望度做出评价的基础上再对版面的链接威望度举行评价,然后给出该版面的综合评价。然而HITS算法也有其明显的不足。
首先,它完全将网页的内容或文本消除在外,仅思忖网页之间的链接构造来剖析版面的威望性,这与现实网络中的威望版面对比,其不科学性昭然若揭。因为威望版面必须针对某一主题或关键词而言。某一版面对一确定主题的具有较大威望性的版面并不体表在其他与其无关的主题方面同样具备威望性。
其次一个版面对另一版面的引用有多种情况,中间包含了一版面对另一版面的肯定,但除此之外也有其他目的链接,eg:为了导航或为了付费广告。而HITS算法在达成过程中均没有思忖以上情况.致使了效果与目标的差距。就HITS算法的思想与实现过程做了详细的研究与概括。
针对前面第一种瑕疵,就有相关的学者提出了一种利用超链文字及其周边文字