教你擊敗百度颶風算法
【張亞楠】最近百度推出颶風算法,嚴厲打擊惡劣采集站,很多站點不幸中招,流量一夜回到解放前。我研究了百度和Google的文檔,詳細定位了算法的命中范圍。
百度公告
我們先來看下百度官方公告,內容如下:
- 百度搜索于近日推出颶風算法,旨在嚴厲打擊以惡劣采集為內容主要來源的網站,同時百度搜索將從索引庫中徹底清除惡劣采集鏈接,給優質原創內容提供更多展示機會,促進搜索生態良性發展。
- 颶風算法會例行產出懲罰數據,同時會根據情況隨時調整迭代,體現了百度搜索對惡劣采集的零容忍。優質原創站點如發現站點索引量大幅減少且流量大幅下滑現象,可在反饋中心進行反饋。
颶風算法分析
從官方文檔中來看,颶風算法的命中對象是站點,而不是網頁;主要是針對以惡劣采集為內容主要來源的網站,而不是所有包含惡劣內容的站點。
哪些內容算是惡劣采集
惡劣采集內容,一般是指沒有花費時間,精力,專業能力,人工整合的內容,或者說對用戶沒有任何附加價值的內容。
這部分內容有以下幾種類型:
- 從其他站點采集的內容。包括整個頁面內容都是采集、主題內容是采集,或者多篇采集拼湊成的內容。這種類型內容很容易被識別。
- 采集之后輕度加工的內容。包括修改了部分詞語,修改了部分句子,或者使用單詞批量替換的形式(部分偽原創工具)。這種類型的識別難度稍微大一點。
- 從某些動態站點采集的內容。包括采集其他搜索引擎的搜索結果(火端搜索),采集新聞feed流。
注意幾個要點:主體內容、惡劣采集、附加價值。
哪些內容不算是惡劣采集
群里也有朋友問,為什么有些網站也是采集的,但沒有受到影響,比如某doc、某浪。其實只要做到某個要點,就不算是惡劣采集,這個要點就是:給用戶帶來附加價值。
附加價值有站點增益和內容增益兩種。這個時候可以引用百度搜索技術博客《淺談互聯網頁面價值》的一段內容:
- 某人發表了一篇針對某新聞事件的原創博客,隨后被新浪轉載到了新聞頻道。從描述的內容上講,這是一種重復。但這種重復僅僅是主體內容上的重復,一方面它的轉載帶來了訪問速度、穩定性等方面的增益,并且之后的檢索用戶還有可能用“新聞事件+新浪”來檢索此新聞。這可以被稱之為站點增益。另一方面,它在轉載過程中可能會改變頁面的標題,而且依托其受眾,在轉載頁面上,還有可能出現更多的有價值評論和回復等,還有可能存在指向其它相關事件的新聞鏈接。這些可以被稱之為內容增益。因此即使主題內容沒有任何變化,新浪的這次轉載也是有價值的,其稀缺度也是較高的。
- 同樣,反過來說,如果轉載的網站相當不知名,則其無法帶來站點名/穩定性/速度的增益。更有甚者,轉載之后在頁面上加入大量廣告妨礙閱讀,或者只轉載了內容中不完整的一部分,這樣的轉載,或者說采集,就是純重復的,與采集源相比,就是沒有檢索價值的了。 綜上所述,對于主體內容重復的頁面,我們應該評價其是否存在站點增益和內容增益,只有對于大量完全無增益的重復頁面,我們才應該認為其稀缺度較低。
這里的要點是:頁面價值、增益
因此說,只要能夠帶來站點增益,內容增益,給用戶帶來附加價值,那就表明這個網頁有其獨特的價值,是不會被颶風算法命中的。
最后
百度的朋友透露,颶風算法主要是針對沒有價值的采集,一旦中招沒有任何解法。而被誤傷的優質原創可以通過反饋中心申訴。如何避免被颶風算法命中。(我下一篇文章會講。)
百度最近的戰略發生了調整,對內容生態的打造成了重中之重。而對惡劣采集內容的打擊,也是勢在必行。
我預測,對采集的打擊,對原創的支持,將是百度搜索內容部分的主旋律,颶風算法也會持續更新。
下一篇將揭秘如何避免被颶風算法命中,敬請期待。
———————————–【百度颶風來襲】網站被百度颶風算法處罰怎么辦——————————-
前言
在百度站長論壇,看到有很多朋友提問,網站中了百度颶風算法,被颶風“吹成太監”,該怎么辦好。在上一篇文章分析了颶風算法的命中范圍。這次我們來談談解決方法。
被颶風算法影響怎么辦
針對颶風算法的影響,百度一個朋友透露說:
颶風算法主要是針對沒有價值的采集,一旦中招沒有任何解法。而被誤傷的優質原創可以通過反饋中心申訴。
因此,一旦被颶風算法命中,只要不是明顯誤傷,短期內都沒有辦法解決。(被搜素引擎算法命中,一般都是普遍存在的,不被搜素引擎接受的做法,一般沒辦法申訴,Google也是如此。只有人工處理的能申訴。)
如何避免被颶風算法命中
采集會被算法懲罰,而內容完全原創,成本又非常高。那如何生成內容,而又不被颶風算法懲罰呢。其實還是圍繞內容增益上去解決,有幾個解決方法:
增加用戶點評模塊
頁面增加用戶點評模塊,當有用戶點評之后,點評內容也會成為網頁內容的一部分,產生了額外價值。作為用戶,在閱讀完內容之后,也希望看一下真實用戶的意見,比如這個內容是否屬實,信息是否失效,有沒有額外的提醒等。
不過要注意的是,點評內容最好是在源碼中實現,而不是在JS中(方便搜素引擎識別)。
- 推薦工具:友言,wumii(不保證內容出現在源碼中)
- 實現難度:★★★
- 安全程度:★★★★
- 示例:網易新聞跟帖
增加內容推薦模塊
根據網頁主題,添加相關的內容模塊,比如延伸閱讀,之前報道,相關閱讀等。作為用戶,可以更加詳細完整的了解事件的發展,比如關于“張藝興”的一篇新聞,可以了解他之前參加過什么活動,有什么緋聞,參與的極限挑戰的進展情況等。這些對用戶來講,都是非常有價值的。
- 實現思路:一種是人工編輯;一種是算法實現,比如根據TF-IDF提取出主體關鍵詞,再拿關鍵詞去跟歷史內容匹配。
- 實現難度:★★★★
- 安全程度:★★★★
- 示例:網易新聞下的延伸閱讀
內容整合
根據主題,將多篇內容整合為一篇。跟之前內容相比,整合后的內容更加豐富,可以滿足用戶更多需求。比如一篇“夢見老虎”的內容,如果能夠添加“夢見老虎吃人”、“夢見被老虎追”等內容,將會更可能命中用戶的夢境。
另一種比較常見的就是專題頁,將相關主題的內容全部組織起來,按照重要程度安排內容布局。這種專題頁有運營小伙伴編輯的,也有程序生成的(使用開源搜索引擎,比如Lucene,Sphinx,Xapian)。
- 示例:網易 – 香港回歸20周年專題
申請百度原創
如果確實是優質原創內容,還是推薦加入百度原創保護項目。目前這個項目在內側階段,需要百度邀請加入。如果對自己的內容非常自信,可以跟我聯系,我可能會推薦給院長。
后記
頭圖來自某網站受算法影響的截圖;
隨著更新頻率提高,感覺內容質量有所下降,需要反思下。