個人網頁的隱密性
西元 2004 年 5 月 29 日 早上 5 點 34 分最近發現有人會從雅虎香港或台灣 Yahoo 奇摩連到我的不公開書籤。為什麼他們知道我的書籤網址?原來…
HTTP Header referer Field
當我們在瀏覽網頁 X 並點選裡面的超連結時,HTTP Request 會送到該超連結所指的 web server,HTTP Request Header 除了該有的欄位外,瀏覽器還會加上一個名為 Referer 的欄位。這一個欄位放原來瀏覽的網頁 X 的網址。這個資訊對於使用者來講可能沒有意義,對於 web server (譬如我自己的 server) 來說是一項很重要的參考資訊。從這個欄位就可以知道,你是從哪一個網頁,點選其中某一個超連結而連到我的網頁來,可能是從搜尋引擎,也有可能是從友站。如果你是從瀏覽器的網址列打上去的網址,則送出去的 header 就沒有 Referer 欄位了。
回到書籤問題,起初書籤的網址只有我一個人知道,只要我不告訴別人,應該不會有第二個人會知道。但是我從書籤點了 Openfind 之後,Openfind 可以從 HTTP 的 Referer 欄位就知道我書籤的網址。所以書籤的網址是有可能洩露出去的。久而久之,運氣夠好的話,搜尋引擎就找得到你所謂的「私人網頁」了。嘿嘿,這個搜尋結果就證明,我的網頁曝光了。

搜尋引擎之神 Google 也不忘再三交代這個事實:
Why is Googlebot downloading information from our “secret” web server?
It is almost impossible to keep a web server secret by not publishing any links to it. As soon as someone follows a link from your “secret” server to another web server, it is likely that your “secret” URL is in the referer tag, and it can be stored and possibly published by the other web server in its referer log. So, if there is a link to your “secret” web server or page on the web anywhere, it is likely that Googlebot and other “web crawlers” will find it.
http://www.google.com.tw/bot.htm
最後,那些人是用什麼搜尋字串找到我的書籤?我彙整了一下,大致上有:
「bt one piece」、或「海賊王」、「楓雪動漫」、「One Piece 動畫 下載」或「fy動漫」
如何保護你的網頁,不被搜尋引擎收錄?
如果你真的要把私人網頁放在網路上,也不打算用密碼做保護的話,你可以在想要保護的那些網頁的 head 裡,加上:
<!– 告訴搜尋引擎不要對此網頁做索引,也就是說不會出現在它的搜尋結果中 –>
<META NAME=”robots” CONTENT=”noindex”><!– 告訴搜尋引擎不可以去處理網頁裡的超連結 –>
<META NAME=”robots” CONTENT=”nofollow”><!– 告訴搜尋引擎不可以把這個網頁儲存在他們的 server 裡,也就是沒有 [頁庫存檔] –>
<META NAME=”robots” CONTENT=”noarchive”>
另外,還有一個保護整個目錄不被收錄的方法。你必須在網站的根目錄下 (/) 建一個名為 robots.txt 的文字檔,檔案內容如下:
# This is a comment line
User-agent: lycra
Disallow: /User-agent: *
Disallow: /tmp
Disallow: /logs
User agent 代表搜尋引擎的 robot,用 ‘*’ 代表所有的搜尋引擎 robot,緊接在 User-agent 之後若干個 Disallow 代表拒絕該 robot 收錄的目錄,如果拒絕的目錄是 ‘/’ 的話,則代為整個網站都是謝絕收錄的。你可以依照自己的目錄配置情況來做調整。
(這是什麼?)
西元 2004 年 6 月 3 日 at 4:03 pm
那我也要來查查我的 Awstats 裡,有什麼不尋常的連結? O_o
(這是什麼?)
西元 2006 年 3 月 21 日 at 1:31 am
嗯,確實, 尤其放在網路的”私人”資料或是網頁,其實如果一個不小心,很容易就被 trace出去..所以, 如果不想讓人知道的網頁, 我覺得, 最起碼要做個 .htaccess 的保護… 就算連到了,也進不來..
我就有這樣的經驗…明明就不可能被連結, 竟然在 google 莫名其妙被找到, 還是朋友告訴我的…..怪了…我在想, 是因為 wrodpress 的闗係, 因為, 我用 wordpress 架的站..並沒有對外做任何連結的動作..
不然, 就算你真的寫了什麼 meta或是 robot.txt 這樣的東西, 那些個網路蜘蛛, 根本可以忽視這些應有的”道德規範”,照樣把你的網頁做索引,供人搜尋.
(這是什麼?)
西元 2006 年 9 月 7 日 at 9:07 am
請問一下喔..我也想要使用不會出現在它的搜尋結果中,是把下列的文字放在每一篇的blog語法的最頭嗎?還是哪裏咧..真是不好意思,,我沒有學過語法,又找不到head的字眼啦.麻煩你了… ^^
tino…
(這是什麼?)
西元 2006 年 9 月 10 日 at 3:27 pm
To tino:
如果你是使用無名小站、蕃薯藤等別人提供的 blog 服務,那你就無法去修改網頁的 head 部分了,除非你是使用像 WordPress、MovableType 等自行架設的 blog。
(這是什麼?)
西元 2007 年 3 月 29 日 at 12:13 am
你好…如果是xuite blog呢?
我該如何把上述語法加在blog上呢?
是要更改css?還是把語法放在”自由欄位”裡呢?
麻煩您幫我解答!謝謝您囉!
(這是什麼?)
西元 2007 年 3 月 29 日 at 1:32 am
To 小玲:
你可以看看 Xuite能不能讓你修改到
<html>或是<meta>等 HTML 標籤。如果不行,那你就不能使用我文章提到的方法囉。Good Luck!(這是什麼?)
西元 2007 年 10 月 4 日 at 3:15 am
我的經驗是,robot.txt是防君子不防小人,其實只是善意勸告罷了,任何搜尋引擎要硬闖,硬把你不願公開網頁內容拷回去分析,你也擋不住它。
不過還好世界上叫得出名字的搜尋引擎,基本上還願意尊重這條規則。
不過我有看到例外的,是中國的百度。我從Log file及PHPBB2的Admin Panel顯示,闖進來不願公開的網域,發現就他們百度機器人曾來闖空門過。
又:前面有網友提到「用 wordpress 架的站..並沒有對外做任何連結的動作,卻被Google找到」,其實,WordPress(或其他Blog),本來就有PingBack功能,你文章、側邊好友欄,只要你有寫到另一個Blog網址,PingBack就送出去了(2.3版以前是送去 http://www.technorati.com/ ;2.3版後現在改為 http://blogsearch.google.com/ 了),送出去等於就公開了。
(這是什麼?)
西元 2007 年 10 月 8 日 at 12:13 am
To Kai-shao:
是呀,這只是寫給「善良」的搜尋引擎看的,不是嗎?
(這是什麼?)
西元 2008 年 1 月 9 日 at 12:44 am
如果你的內容被Google收錄,你可以去網站管理員那裡把你需要保密的網頁刪除,不過好像需要驗證!
我的這個美國虛擬主機評測網www.webhosting10.org有很多網頁,我剛從那裡刪除,需要更新才能刪除!
(這是什麼?)
西元 2008 年 1 月 10 日 at 1:06 pm
To webhosting10:
沒有什麼需要刪除了啦。 :p