講到要聘用數(shù)據(jù)科學(xué)家,最擔(dān)心的大概就是所聘非人。數(shù)據(jù)科學(xué)家不僅是出了名的搶手、難以討好,而且還得付出高額薪資,所以一旦聘錯人,代價真是不小。我們的數(shù)據(jù)人才培訓(xùn)公司The Data Incubator已有數(shù)十家公司前來洽談,想聘用曾接受培訓(xùn)的數(shù)據(jù)科學(xué)家。這些客戶規(guī)模有大有小,大到如輝瑞藥廠(Pfizer)和摩根大通(JPMorgan),也有規(guī)模較小的新創(chuàng)公司,如Foursquare和Upstart。公司如果聘用員工的經(jīng)驗還不夠豐富,常常就問不到一個關(guān)鍵的問題:
你們的數(shù)據(jù)科學(xué)家,做的是機(jī)讀分析(analytics for machines)還是人讀分析(analytics for humans)?
這項區(qū)別無論任何公司、行業(yè)或職稱(我們的學(xué)員受聘的職稱種類繁多,從計量人員、數(shù)據(jù)科學(xué)家、分析師到統(tǒng)計員都有),都同樣適用。遺憾的是,人事主管大多并不知道這些角色需要不同的才能及性格。
雖然數(shù)據(jù)科學(xué)家分類繁多,并不只有這一項,但就公司聘用來說,這是最大的重點之一。以下解釋兩者的差異及重要性:
機(jī)讀分析人員:在這種情況中,最后是由計算機(jī)來使用分析結(jié)果、做出決定。例子包括像是供在線廣告或網(wǎng)絡(luò)內(nèi)容來鎖定用戶、算法交易、產(chǎn)品推薦等等。
這些數(shù)據(jù)科學(xué)家做的是建立起非常復(fù)雜的模型,要輸入極大量的數(shù)據(jù),再從中找到很細(xì)微的跡象,供機(jī)器學(xué)習(xí)、推演復(fù)雜的算法。這些數(shù)字模型必須能自行運(yùn)作,選擇要顯示哪些廣告、對使用者做出建議,或是自動進(jìn)行股市交易,常常在一眨眼間就已完成決定。
要產(chǎn)生可機(jī)讀分析數(shù)據(jù)的數(shù)據(jù)科學(xué)家,必須有極強(qiáng)大的數(shù)學(xué)、統(tǒng)計及運(yùn)算知識,才能打造速度快、預(yù)測準(zhǔn)確的模型。他們通常會取得明確的數(shù)據(jù)(例如利潤、點擊數(shù)、采購額),再運(yùn)用各種技術(shù),打造出非常復(fù)雜而能夠改善工作效能的模型?,F(xiàn)實生活有幾兆件的事件、幾百萬的使用者,就算只是小小的進(jìn)步,也能讓結(jié)果大大不同,因此這些人的工作能夠讓利潤突飛猛進(jìn)。
人讀分析人員:在這種情況中,最后是由另一個人類來使用分析結(jié)果、做出決定。例子包括分析產(chǎn)品的效果、理解用戶人數(shù)成長和留住顧客的成果、為客戶寫出報告等等。
雖然說他們和機(jī)讀分析人員可能用的是同一套大數(shù)據(jù),但他們的模型演算結(jié)果和預(yù)測最后是交給另一個人類(而且這個人通常并不是數(shù)據(jù)科學(xué)家),由這個人依據(jù)推薦來做出各種產(chǎn)品及業(yè)務(wù)上的決定。
?
從事人讀分析的數(shù)據(jù)科學(xué)家,得想想如何用數(shù)據(jù)來說故事。因為他們得把結(jié)果解釋給其他人聽(特別是看不懂?dāng)?shù)據(jù)科學(xué)的人),所以他們很可能會刻意選擇比較簡單的模型,而不是那些雖然精準(zhǔn)但太過復(fù)雜的模型。他們也必須能夠提出一些較高層次的結(jié)論,像是「如何」和「為何」。這些問題并無法從數(shù)據(jù)中一眼得見,不像是那些機(jī)讀分析人員能有明確的數(shù)據(jù)為依據(jù)。
對于這兩種不同的工作,必須要分別找到對的人。我們發(fā)現(xiàn),如果需要的是機(jī)讀分析人員,這種數(shù)據(jù)科學(xué)家通常具有自然科學(xué)、數(shù)學(xué)或工程背景(常常具備博士教育水平),嫻熟數(shù)學(xué)及計算機(jī)運(yùn)算,才能應(yīng)付這種高檔次工作。如果員工缺少必需的技術(shù)技能,面對大量數(shù)據(jù)不是完全無法處理,就是使用了過度簡化的模型,無法讓數(shù)據(jù)真正發(fā)揮價值。
然而,如果是要找人讀分析人員,上面的這種人卻可能并不適合。如果找了一群麻省理工的物理學(xué)家,卻規(guī)定他們只能用「簡單」、主管聽得懂的模型來做事,這可不算人盡其用(特別是這些人常??释麢C(jī)器學(xué)習(xí)那種高深的挑戰(zhàn))。另一方面,如果是社會學(xué)科或醫(yī)學(xué)科學(xué)家(多半也需要博士等級),他們的訓(xùn)練讓他們很能抓住「如何」和「為何」,常常也正是在相關(guān)難題上大顯身手。
在過去,一般都是硬科學(xué)背景的數(shù)據(jù)科學(xué)家在媒體上受人注目。這種情況有一部分原因是對于未知的浪漫想象:一邊是神秘的模型,能像魔法一樣進(jìn)行股票交易、或是立刻了解用戶的喜好,聽起來多么令人心動。而另一邊則就是坐在那里想破頭,思考著因果關(guān)系、取樣偏誤,還有數(shù)據(jù)里的「如何」和「為何」,聽起來就是沉悶的工作。然而,后者卻也可能是你真正需要數(shù)據(jù)科學(xué)家替你做的工作。在還沒開始聘任過程前,只要先問一下這個關(guān)鍵問題,公司就能不隨波逐流,而能真正針對自己的需要、尋得最符合的數(shù)據(jù)科學(xué)家。