電話

    0411-39943997

仟億科技
客服中心
  • 電話
  • 電話咨詢:0411-39943997
  • 手機
  • 手機咨詢:15840979770
    手機咨詢:13889672791
網絡營銷 >更多
您現在的位置:首頁 > 新聞中心 > 常見問題

了解抓取Google的搜索結果頁

作者:billionnet 發布于:2012/5/13 18:28:26 點擊量:

Google搜索結果頁(SERP)的抓取,對SEO從業人員等都有很大的幫助,通過抓取SERP我們可以監測網站的排名情況、PPC廣告的情況、鏈接流行度等數據。

Google作為最大的搜索引擎,有著最大的抓取程序Googlebot,但是他卻禁止其他網站抓取他的頁面。Google使用了大量的技術來檢測和阻止自動請求。一旦Google檢測到自動抓取程序,那么會出現以下幾種情況:

  1. 提示電腦中了病毒或木馬;
  2. 提示木馬程序,并要求輸入驗證碼;
  3. Google會在一段時間內阻止您的IP訪問;
  4. Google阻止您訪問的時間會加長。

Google是怎么檢測抓取程序的?可能的方法有:

  • 通過IP 地址,IP地址可以作為用戶的唯一標識。
  • 關鍵詞的變化,普通用戶不會再極短的時間內查詢很多關鍵詞。
  • 抓取頻率,每次抓取的頻率都要在Google限定的范圍內。

隱藏抓取跡象,避免被Google屏蔽。

  1. 首先需要的是一個可靠地IP代理列表,代理地址需要每有被Google屏蔽掉。最好準備50-150個代理地址,一旦Google發自動抓取,千萬別繼續去抓取。
  2. 保證更換代理IP以后,你的Cookies也隨著變化。
  3. 通過在URL中添加&num=100,將搜索結果的暫時數量設置為最大(100)。
  4. 不要使用多線程去抓取。
  5. Google對每個關鍵詞,僅提供1000個查詢結果。
  6. 在適當的時間更換您的代理IP,這是抓取成功的關鍵。如果你要住區每個關鍵詞300-1000條結果,需要給每個關鍵詞更換一個IP;如果查詢的結果小于300個,最好在查詢過程中uoxia延遲炒作,延遲10-20秒或真假代理數量。
  7. 如果返回的是一個驗證碼頁面,你最好馬上停止現在的行為。

下面是一個使用PHP寫的抓取Google搜索結果頁的代碼。代碼中主要包括有:

  1. 自動代理輪換(使用seo-proxies.com的API),如果你擁有自己的代理IP地址表,可以通過修改代碼改變它。如果你有seo-proxies.com的license,可以通過修改scaper.php中的”USERID”和”API-PASSWORD”來匹配license。
  2. 自動從一個搜索結果頁爬去其他搜索結果頁。
  3. 使用聯想詞來增加搜索結果的數量。
  4. 自動發現和移除廣告。
  5. 將抓取數據已數組方式保存,使用HTML方式或其他格式在前臺頁面呈現。

你唯一要做的是把抓取的結果儲存在數據表中,進行管理。

代碼下載:http://www.box.net/shared/mz1d48hg1c



分享到:


Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號   google網站地圖   百度網站地圖   網站地圖

公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752

法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明

www精品一区二区三区四区