互聯網網頁資源現狀CNNIC2014 年年初發布的《中國互聯網絡發展狀況統計報告》中稱:截至 2013 年 12月,中國網頁數據為 1500 億,相比 2012 年同期增長了 22.2%。
2013 年中國單個網站的平均網頁數和單個網頁的平均字節數均維持增長,顯示出中國互聯網上的內容更為豐富:平均網站的網頁數達到 4.69 萬個,較去年同期增長 2.3%。
為了保證搜索質量、提高用戶使用滿意度,百度搜索引擎每周都會進行網頁質量抽樣評估。
然而從近一年的評估數據中我們發現,優質網頁的絕對數量非常少,且幾乎沒有增長;普通網頁的占比在下降,相應的,質差網頁的比例卻有明顯上漲。
截至 2014 年 5 月,統計數據顯示,在百度網頁搜索發現的海量網頁中,優質網頁僅占 7.4%,質差網頁高達 21%,其余普通網頁為 71.6%。
優質 普通質差百度網頁搜索通過一系列篩選、識別、分析、賦權等工作,努力將更多優質網頁呈現在用戶面前,每天約打擊上萬質量差網站,涉及網頁達百萬量級,盡可能減少質量差網頁給用戶帶來的干擾。
從下圖 2014 年 5 月的網頁展現分析數據顯示,目前展現在用戶面前的網頁質量分布中,優質網頁占比為40%,質量差網頁降為11%——雖然這個變化已經非常明顯,但百度網頁搜索還是希望能和廣大站長一起努力,將質量差占比降到更低。
互聯網全部網頁 在百度搜索得到展現的網頁優質網頁 7.4% 41%普通網頁 71.6% 49%質量差網頁 21% 11%上述質量差網頁包括低質網頁和垃圾網頁兩部分,低質網頁問題分布如下圖所示:廣告體驗差內容空短有權限限制過期信息資源低質低質采集低質搜索結果頁論壇水帖排版差我們看出目前低質網頁中其嚴重的問題即因廣告過多、占據網頁主要位置以及超預期彈窗帶來的瀏覽體驗差,內容空短、網頁需要權限才能獲取資源和過期信息也是低質網頁的重要組成部分。
質量差網頁中除了低質網頁外,無任何質量可言的垃圾頁面的問題分布如下圖所示:死鏈對用戶、網站和搜索引擎來說都已沒有存在的意義,垃圾網頁中占比其大。
其次是對用戶和搜索引擎傷害巨大的作弊網頁,資源無效、有問無答和不相關搜索結果頁這些極大浪費用戶時間的網頁也是搜索引擎不希望呈現給用戶的。