360搜索ICO算法簡介

ICO算法是對已經入索引庫的低質量URL和無效URL數據進行清理的算法,在不同的階段會對不同類型的無效數據進行清理,該算法是一個長期執行的算法。(ICO 全稱:Index clear optimize)

算法公布規范:一次清理超過10億頁面的算法360搜索都將提前公布告知站長,并告知算法優化處理的主要方向。

ICO算法—本次針對重復內容清理

處理量級:10億以上

處理網頁特點:

該算法主要是針對重復內容進行清理,對用戶沒有價值的內容頁面,內容時效性強且過期的頁面,采集站類,URL地址含有無效參數的頁面等。

例如:招聘類網站不同子站中內容相同的頁面,小說采集站尤其處理對用戶無價值的頁面,舊新聞頁且內容重復的頁面也會處理一部分,以及其他的部分無效頁面。

未經允許不得轉載:西安王塵宇 » 360搜索ICO算法簡介

贊 (0)

評論 0

一级A试看120秒