2009-09-01 16:01:03

如何要求Google移除已收錄的網站或網頁?

來源: http://keyword.com.tw/blog/137

只要連上網路的網頁資料,
除非是需要密碼才能進入的網頁
或者是建立Meta中繼標記的網頁或robots.txt檔的網站網頁
搜尋引擎的爬蟲程式一定會找到並加以收錄,
有時一時大意將不該公開的個人隱私資料放上網路,
例如:身份證字號、信用卡號碼、家裡地址、考試成績、你的體重、
或者年少輕狂留下的好傻好天真記錄…。

 

此時除了立刻將網頁移除外,
網頁資料也許已被Google收錄至庫存頁面(頁庫存檔),
或者已被轉貼到其他地方,
應利用 Google的網頁移除要求工具 (需建立一個Google帳戶並登入)
通知Google儘速將收錄的網頁移除。
這種烏龍事件時常發生,
以下檢附幾則新聞,
大家應該記憶猶新~

 

北市府老聚落名冊檔案 雅虎找得到
馬英九的身分證字號、住家地址,網路上都查得到
疾管局疏失 結核病患資料外洩
台師大學生個人資料 Google一覽無疑
200多教官個資外洩 教部:已撤網頁並懲處

 

引用:http://keyword.com.tw/blog/136

如何讓自己的網站(網頁)不被Google收錄?


1.在網頁建立Meta中繼標記

將<Meta>標記加到 HTML 網頁以指示網路爬蟲程式不要為該網頁建立索引

2.建立 robots.txt 檔案

robots.txt 是一個標準的文件,
它可以告訴 Googlebot ( Google的 web crawler 網路蜘蛛爬蟲程式)
不要從您的網頁伺服器下載一些或所有的資訊,
我們可以使用文字編輯器建立 robots.txt 檔案,
告知搜尋引擎「可以」或「不可以」
索引整個網站或網站的部份目錄、網頁或其中某些檔案。
robots.txt 必須存放在網域的根目錄, 例如:http://www.example.com/robots.txt
利用Google 網站管理員工具,可以教你如何產生一個 robots.txt檔。

下例是Yahoo奇摩知識+ 的robots.txt檔
http://tw.knowledge.yahoo.com/robots.txt

Yahoo奇摩只讓自己家的網路爬蟲程式 Slurp 存取知識+的網頁內容,
而攔截其他搜尋引擎的網路爬蟲,
所以我們在Google查不到Yahoo奇摩知識+的網頁內容。

不過以上方法都只是防君子不防小人,
不照規則硬闖的爬蟲程式還是有,
真的不希望自己的資料在網路上被存取到最好的方法就是
-不要把不該公開的資料放上網路。

參考文章:
如何使用 robots.txt 檔案來控制網站的存取權
如何建立 robots.txt 檔案
如何防止 Google 將我的內容編入索引或如何從 Google 索引移除內容
如何要求Google移除已收錄的網站或網頁