半職爸爸:看孩子不必用大數據

美國職業棒球史上,有一個名為「魔球」的故事,講述非大型球會如何利用數據,找出那些被低估的優秀球員。這是一個激勵人心的故事,問題是,這個棒球數據資料庫證明成功以後,所有球會都效法了,那麼,用少錢找到千里馬球員的故事就很難繼續發展下去。(按:「魔球」創始人後來接受訪問,坦承現在多僱用了球探。)

用數據找千里馬

當數據剛剛出現時,可能很有用,因為其他人並未知道。可是,當大家都知道了的時候,數據有時會變成別有用心的借用、利用以至誤用的工具。

《數據、謊言與真相》(Seth Stephens-Davidowitz,商周出版)裏面提到一個有趣的故事,一個馬匹專家,憑檢測馬匹的左心室大小,給馬主找到一匹正要被馬主低價賣掉的千里馬,結果18個月後,這匹馬成為30年來首屈一指的三冠王。

這個現代伯樂發明的數據(就是馬的左心室大小)奏效了。但是,我的想法是,如果賽馬的規則改了,不是比快而是比遠,這個數據可能會失掉所有意義。

擁抱大數據的人,認為數據不會說謊,這是因為提出這個觀點的人,是在「大數據」仍未成行成市時提出的。到「大數據」這詞語已經家傳戶曉時,「數據不會說謊」可能已經成了最新的謊言。當網絡巨擘不斷推出最新的演算法,甚至推銷嶄新的計量系統時,太多人摩拳擦掌要好好「利用」新的演算。即使不是故意「利用」,在日常網絡使用中,根據我對人的了解,網絡數據仍是會謊報軍情的。搜尋某作家的人,可能不是因為喜歡,而是因為憎恨。

所有數據都有趣,而且如何選取也是千變萬化,其多元和不確定的程度,正如數據分析家所做的分析一樣。幾十年前的故事:非洲人不穿鞋,對鞋子生產商而言,究竟是「因無需求而無商機」還是「因無供應而商機無限」?事實如此,如何分析,可以正好相反。這就是數據有趣和不確定的地方。

數據不是唯一標準

如果說數據不說謊甚至能預測未來,例如我們能由一些人搜尋「背痛」然後搜尋「皮膚變黃」,就能推斷這些人有較大機會得到胰臟癌這種早期難以確診的致命疾病,那麼,如果能用大數據把一些聰明能幹的孩子找出來,我們應該這樣做嗎?如果大數據可以預測誰當上總統會對國民更有利,我們應該使用大數據嗎?

《數據、謊言與真相》也有相對較小的篇幅提到數據的限制,那可能是規模不足的詛咒(例如利用DNA找出聰明基因結果發現錯誤),也可能是數據未必足以呈現的用戶體驗。例如一段網絡消息給讀者的體驗,是否只限於讚、分享和留言,而不是掀動嘴角的微笑?

大數據時代,我反而想提醒一點,那就是一匹馬的價值,不一定在於牠的左心室有多大,也不一定在於牠能贏多少獎盃,而是牠活得好不好。一個孩子或者一座城市的價值,也不一定要用數字去衡量。

文:張帝莊

作者簡介:資深新聞工作者,曾採訪多個「第三世界」國家,卻認為自己的家更值得探索。既是悠閒的寫字人,又是忙碌的爸爸。

[Happy PaMa 教得樂 第286期]