杭(háng)州SEO专用徐少辉要说的是:网页查重算法,也(yě)就是(shì)搜(sōu)索引擎是怎么检查(chá)两个网页的(de)相似(sì)性的?这应该(gāi)是大家应(yīng)该比(bǐ)较关心的问题(tí)吧,因为(wéi)这(zhè)有助于(yú)让你(nǐ)的“伪原创”更(gèng)像一(yī)个“原创(chuàng)”
首先我跟大家(jiā)讲有名的I—MATCH算法。
我们在比(bǐ)较(jiào)两件(jiàn)事物的相似(sì)性时,往(wǎng)往都会(huì)拿能均衡(héng)的反应这事物本质的(de)东西来(lái)比较(jiào),就(jiù)像比赛时,要去除一个(gè)最(zuì)高分和最低分(fèn),然后再变算总分一样~~
I—MATCH算法基于的依据是(shì),在(zài)文挡中,特别高频的词和特(tè)别低频的词无法反(fǎn)应(yīng)这一(yī)个文挡的(de)真实内容(róng),所以在比较之前,先将文挡中(zhōng)高频词和低频词去掉(注意:这里的高频和低频指的是文档频率,并非关(guān)键词在你网页中的密度!)
我(wǒ)们来看一(yī)个例子:
这里有(yǒu)两段网页文字:
1.中国(guó)足球队在米卢的率领下首次(cì)获(huò)得世界杯决赛阶段的比赛资格,新浪体育(yù)播报 。
2.米卢率领中国足球队员首次杀入世界杯决赛阶段,搜狐体育(yù)播报。(嘿(hēi)嘿,看到这两(liǎng)句很熟吧?)
文档(一(yī))中(zhōng)去掉高(gāo)频:中国,在,的,获得,比赛,资格,新(xīn)浪,体育,播报(bào)
去掉低频:米卢
则剩下中频词有:足球队(duì),率领,首次,世界杯,决赛,阶段
文档(二)中去掉高(gāo)频:中国(guó),搜狐,体育(yù),播报
去掉低频:米卢,杀入(rù)
则(zé)剩下中频词有:率(lǜ)领(lǐng),足球队,首次,世(shì)界(jiè)杯(bēi),决赛 ,阶段
看到了吧?剩下的,两者是一模一(yī)样(yàng) 这就是相似性的存在
呵呵(hē),其实这个(gè)例子很(hěn)早就(jiù)有过的。。
综上所述:搜索引擎要检测相似性,主要就(jiù)是要分词和词频的比较!!
|