反spam與spam間的較量
搜索引擎第一輪反擊是,在排序時(shí)更多地依賴網(wǎng)頁(yè)正文而不是meta tag。但spam們以進(jìn)為退,在正文中大量使用與網(wǎng)頁(yè)背景相同顏色的關(guān)鍵字,在圖片注釋文字中塞進(jìn)關(guān)鍵字,在網(wǎng)頁(yè)代碼加入“看不見的注釋”。搜索引擎又開始第二輪反擊,它們找
到了有效的方法來(lái)過(guò)濾這些看不見的文字。
搜索引擎的spider(蜘蛛)在訪問(wèn)任何網(wǎng)站時(shí)都會(huì)自報(bào)身份,并且查閱網(wǎng)站的訪問(wèn)規(guī)定,按照各網(wǎng)站的規(guī)矩來(lái)辦事。于是,SEO隨之制作兩個(gè)網(wǎng)站,一個(gè)專供網(wǎng)友訪問(wèn),一個(gè)專供搜索引擎訪問(wèn),“各取所需”,這種方法叫做cloaking(外套)。
在國(guó)外,其實(shí)早在上世紀(jì)SEO SPAM便已成大熱門。據(jù)1998年的一次調(diào)查,在主要的搜索引擎上搜索當(dāng)時(shí)的熱門詞匯“Monica Lewinsky”(莫妮卡·萊溫斯基),各搜索引擎首頁(yè)居然有40%的搜索結(jié)果是垃圾網(wǎng)站。
搜索引擎只能去尋找新的相關(guān)性排序依據(jù),或作弊者不能控制的排序依據(jù),即到網(wǎng)站以外去尋找排序的依據(jù)。于是,出現(xiàn)了超鏈分析,出現(xiàn)了Pagerank。超鏈分析的原理即是看網(wǎng)頁(yè)間的同類鏈接點(diǎn)作為重要依據(jù),此后,又根據(jù)各網(wǎng)站的權(quán)重等來(lái)綜合分析等。這樣,gov(政府網(wǎng)站)和edu(教育網(wǎng)站)通常被賦予較高的排名,來(lái)自gov和edu的超鏈也有更高的價(jià)值。
但spam們又據(jù)此做大量的網(wǎng)站,準(zhǔn)備大量的鏈接,哪個(gè)客戶出錢,所有的網(wǎng)頁(yè)都給它一個(gè)鏈接。這種SEO方法被稱為link farm。而反spam的做法就是憑發(fā)現(xiàn)的link farm而認(rèn)定此即為作弊網(wǎng)站。
據(jù)某論壇上某個(gè)站長(zhǎng)透露,目前,在中國(guó)已經(jīng)形成了一個(gè)巨大SEO SPAM市場(chǎng),據(jù)反spam專家王某的估計(jì),中國(guó)以此為生的人數(shù)大約在數(shù)十萬(wàn),其網(wǎng)站更是高達(dá)數(shù)百萬(wàn)計(jì)。在互聯(lián)網(wǎng)上,有眾多SEO網(wǎng)站,它們打著各種旗號(hào)來(lái)“指導(dǎo)”人們作弊,并在上面談心得體會(huì)。
這些SEO SPAM們“賴以生存”的方式主要是以下兩種:1.利用搜索引擎引來(lái)網(wǎng)站流量帶動(dòng)的廣告收入;2.販賣通過(guò)對(duì)搜索引擎作弊獲得的較高的關(guān)鍵詞排名。網(wǎng)站流量以獨(dú)立IP計(jì)算,根據(jù)站長(zhǎng)的透露,自己每日5000個(gè)獨(dú)立IP的訪問(wèn)量,僅加入了電影寬帶等3家的廣告聯(lián)盟,月入已達(dá)1300元左右。而一個(gè)被百度收錄2萬(wàn)左右網(wǎng)頁(yè)的做流量的網(wǎng)站,每日IP很快就能漲到4萬(wàn)元。
前赴后繼的spam
SEO SPAM的破壞性是相當(dāng)巨大的,它不僅直接破壞了每日數(shù)億計(jì)的用戶搜索體驗(yàn)———這是搜索引擎網(wǎng)站賴以生存的關(guān)鍵所在,同時(shí)也破壞了搜索引擎獲得收益的主要來(lái)源———競(jìng)價(jià)排名以及相關(guān)廣告。
據(jù)有關(guān)統(tǒng)計(jì)資料,在所有網(wǎng)頁(yè)中,摒除無(wú)效網(wǎng)頁(yè),作弊網(wǎng)頁(yè)占到整個(gè)網(wǎng)頁(yè)的10%;在某些熱門關(guān)鍵詞的搜索中,其前50篇網(wǎng)頁(yè),垃圾網(wǎng)站的網(wǎng)頁(yè)所占比例甚至可以高達(dá)80%以上。
在中國(guó),Google一直以謙謙君子的形象示人,但它也有發(fā)怒的時(shí)候。
2005年3月26日凌晨4點(diǎn),忍無(wú)可忍的Google突然發(fā)力,將一大批spam站點(diǎn)清除。Google的頁(yè)面恢復(fù)了以前的干凈。
但事隔不到4個(gè)月,垃圾網(wǎng)站的網(wǎng)頁(yè)又如潮水般涌來(lái)。據(jù)來(lái)自Google的內(nèi)部消息,Google也一直在致力于反spam,但建立一個(gè)完整的反垃圾網(wǎng)站系統(tǒng)是一個(gè)漫長(zhǎng)的過(guò)程,在中國(guó),反垃圾網(wǎng)站的人才更是奇貨可居。在采訪百度時(shí),百度即不愿披露反垃圾網(wǎng)站專家的姓名,“因?yàn)檫@是百度最為寶貴的人才之一”。
據(jù)王某透露,其實(shí)在搜索引擎與垃圾網(wǎng)站的長(zhǎng)期斗爭(zhēng)中,搜索引擎總是處于守勢(shì)。這不僅因?yàn)樗阉饕婀菊嬲紤]搜索結(jié)果相關(guān)性和排序的只有幾個(gè)人,而互聯(lián)網(wǎng)上整天琢磨怎么對(duì)付搜索引擎的有幾十萬(wàn)網(wǎng)站管理員,更重要的是,制造一個(gè)或幾十個(gè)甚至幾百個(gè)作弊網(wǎng)頁(yè),只要將一個(gè)目標(biāo)網(wǎng)頁(yè)稍作改動(dòng)即可實(shí)現(xiàn),并可以不斷進(jìn)行類似復(fù)制,而搜索引擎甄別、刪除卻需要相當(dāng)?shù)臅r(shí)間,這種“以一當(dāng)百”,以一個(gè)網(wǎng)站對(duì)付數(shù)以萬(wàn)計(jì)作弊網(wǎng)站的工作,對(duì)搜索引擎而言,是一個(gè)巨大的人力資源投入與成本投入。
目前,垃圾網(wǎng)站的新攻擊方向是博客網(wǎng)站。在國(guó)內(nèi)的各大博客,目前均已苦不堪言,spam如蝗蟲般涌來(lái),流量太大會(huì)導(dǎo)致網(wǎng)站通道堵塞而無(wú)法訪問(wèn)。
這一斗爭(zhēng)過(guò)程,已完全類同于互聯(lián)網(wǎng)的病毒與反病毒,所不同的是,制造病毒的成本有時(shí)會(huì)更高些———需要很高的技術(shù)門檻,而制造垃圾網(wǎng)站的門檻卻相當(dāng)?shù),且制作方便?
因此,作為搜索引擎,對(duì)待垃圾網(wǎng)站的態(tài)度是高度地一致:永久刪除。
但在搜索中,永遠(yuǎn)會(huì)有垃圾網(wǎng)站的存在,因?yàn)樗繒r(shí)每刻都在誕生。由于垃圾網(wǎng)站的成本與收入間的巨大差異,SEO SPAM們還會(huì)勇往直前,前赴后繼。而到目前為止,政府以及相關(guān)部門還沒(méi)有對(duì)這種互聯(lián)網(wǎng)上的“假冒偽劣”制定相應(yīng)的法律制度來(lái)制約。但相信這一天一定會(huì)到來(lái)。(朱建國(guó)
暴春燕)
責(zé)任編輯 原霞