那份「十大甜心大學」排行為什麼不能信

每年大概春末會有一份東西在我的後台被人問到 —— 「那份十大甜心大學排行你覺得準不準」。

通常那份排行長得差不多是這樣：

附上一個「平均月零用金 NT$48,235」之類的數字。看起來很像那麼一回事。

這篇用一千多字告訴你：這種排行從統計方法的第一步開始就是錯的，而且錯得很離譜。

錯誤一：用「註冊數」當「實際活躍數」

幾乎所有這類排行的資料來源都是某個包養平台後台的「會員自填學校」資料。

問題是：註冊≠活躍。

我大概知道幾個常見台灣站的流失曲線是這樣：

也就是說，註冊數比實際活躍數大上 3-5 倍。

而那些「註冊但沒活躍」的女生填學校的時候，最容易填什麼？她們會填**自己覺得「比較好聽」或「比較有競爭力」**的學校 —— 包括掛羊頭賣狗肉、包括早就畢業還填學校、包括根本沒念過但寫了那間。

排行越靠前的學校，越是這個「印象濾鏡」的受益者。

假設 A 大學有兩萬個學生，B 大學有八千個學生。如果 A 註冊 200 人、B 註冊 150 人 —— 排行說 A 比 B 多。

但這個數字真正告訴你的是 A 校的「絕對參與密度」比 B 校低（1.0% vs 1.875%）。

幾乎所有這類「甜心大學排行」都犯這個錯。他們把「會員數最多」直接寫成「最多甜心」 —— 這在統計學上是違反「人均」這個最基本的觀念。

任何一份「全台甜心大學排行」，如果它的資料來源只是某一個平台的後台 —— 那它的真實標題應該是：

「這個特定平台上，自填學校為 X 的會員數最多」

而不是「全台甜心最多的學校」。

為什麼？因為不同的甜心平台會吸引不同的女生族群。有的偏年輕、有的偏熟女、有的偏業界、有的偏學生。一個平台的 top 10 跟另一個平台的 top 10 可能完全不同 —— 但每一份都會宣稱自己代表「全台」。

這在統計學裡有一個專有名詞叫 selection bias（樣本選擇偏誤）。整份排行的可信度因為這個偏誤而趨近於零。

這個錯誤我在另外一篇文章裡會講比較細，這邊先給結論：

包養月費的分布是長尾分布（long tail），少數高價甜心的月費可能落在 15-25 萬，而大多數人落在 3-6 萬。

在長尾分布裡用算術平均，會被那個尾巴嚴重往上拉。NT$48,235 這個數字看起來「合理」，但它幾乎不能代表你會遇到的任何一個甜心 —— 因為大部分甜心遠低於這個數字，少數遠高於它，沒有人剛好是這個數字。

要用的應該是中位數（median）—— 把所有月費從低到高排序，正中間那個。台灣本地的中位數憑我看過的我會估在 NT$32,000-38,000 之間，比那個「平均」低了一萬以上。

不是因為任何人想要研究這個現象。是因為這份排行會被點開。

你看：標題下「十大甜心大學」加上熱門學校的名字，演算法就會推。男大學生會點、家長會點、看熱鬧的人會點、競爭排行裡那幾間學校的學生會點。

排行本身不用準，它只需要被點開。

老實講，這個問題的答案對你的人生沒有任何用處。

如果你是乾爹：找甜心的時候你關心的是「這個人是不是合得來、會不會準時、彼此期待對不對等」 —— 而不是她念哪間。

如果你是想進這個圈子的女生：你關心的應該是「我自己的條件適合什麼樣的安排」 —— 跟你念哪間沒什麼直接關係。

如果你是因為「想看看自己學校上不上榜」而點進來的學生：恭喜，你貢獻了一次點閱，那份排行的演算法分數又上去了一點。

—— 站長

相關閱讀：「48,235」這個平均零用金為什麼會誤導你（sugartales 那邊有更長的版本）