讓數據科學賦能金融風控 | 數據科學50人·沈贇

DT財經2019-09-11 12:23:44


沈贇,360金融首席數據科學家。他利用數據科學賦能信貸業務,並取得了行業領先的成績。本文講述了一位金融風控領域的數據科學家的故事,並通過實際案例解釋沈贇博士的數據科學風控之道。

 

這些年,數據科學家這個新職業物種出現在了現代商業文明中,運用大數據與科學方法解決業務實際問題變了數據科學家的“掌上魔法球”。通過大數據與人工智能的魔力,他們改變了商業玩法,讓傳統行業有了新的生命力。

 

雖然,數據與科學家的融合催生了數據科學家這個“高大上”的名詞,但迴歸業務本源,他們依舊是在企業中利用技術解決問題的、樸素的實操者。不過,想要真實地瞭解數據科學家,就必須通過這些“魔法師”自己的嘴來講述。於是,8月盛夏,在上海360金融的總部,我們專訪了首席數據科學家沈贇博士,讓他告訴讀者們,他和團隊是如何利用數據科學在金融風控領域施法佈道。

 

經歷AI週期

 

 “什麼機緣巧合之下與數據科學結緣的?”面對我們拋出的第一個問題,已在360金融擔任首席數據科學家的沈贇博士馬上打開了自己的話匣子。

 

沈贇從小就接觸電腦,之後興趣使然,一直學習計算機科學,直到今天,從事了一份與數據科學相關的工作。1996年,沈贇的父母給他買了一臺電腦,從此他便愛上了這個電子玩物。

 

“一方面是打遊戲,另一方面,我也愛編程,當時還用古老的帕斯卡語言,不過初中就編出了小型數據庫了。”說到兒時與計算機結緣的過程,沈贇露出自豪的笑容。

 

電腦在90年代後期進入中國家庭,見證了中國互聯網的誕生、發展與崛起,陪伴了80後一代人的年輕歲月,並進入屬於他們的互聯網技術(IT)的大時代。直至今日,伴隨著DT(大數據)時代的到來,電腦依然成為人工智能技術的載體。

 

沈贇在2002年從江蘇常州考入了上海交大的計算機系,學習計算機科學,並在大四那年參與了雙學位的留學項目,前往柏林科技大學繼續深造。與現在火爆的機器學習課程不同,當時沈贇選擇的機器學習與神經網絡並不是熱門專業,當被問到為什麼學習那個當時的大冷門課程時,他說:“聽大家說這個門課比較難,涉及很多複雜的數學公式和編程技巧,每年能通過考試的人也不多,我覺得比較有挑戰性。”

 

機器學習和神經網絡早在上世紀中期就已經出現,並在80年代實現復興,進入計算機科學的主流世界。但當時受限於算力無法驅動算法,數據量較小,發展一度停滯。在很長的一段時間(上世紀80年代至2006年Jeffery Hinton提出深度學習),學習機器學習與神經網絡的課程大多門可羅雀。2010年之後,深度學習的崛起促成了機器學習和神經網絡的復興,並演繹出了人工智能的第三次浪潮。

 

沈贇說自己完整地經歷了一輪人工智能的週期,此話非常確切。研究生畢業之後,做遊戲、建網站才是當時互聯網的熱門職業,再三考慮之後,沈贇回到柏林的校園,在柏林科技大學繼續攻讀博士,方向定在了計算機科學的理論研究。

 

 

在德國,沈贇曾結識了不少大牛,其中就包括LSTM(長短時記憶網絡)的發明者之一的Sepp Hochreiter。Sepp Hochreiter和沈贇一樣,也是一位歷經人工智能週期的研究人員。起初,Sepp研究神經網絡起家,並在90年代初通過畢業論文首次提出了LSTM。可惜造化弄人,在人工智能的第二次寒冬中(貫穿90年代,直到21世紀初的幾年),他轉向了對於支持向量機(SVM)等領域的研究。

 

沈贇說:“我讀碩士的時候認識了Sepp Hochreiter,他正好是我教授的研究組裡的博士後,並在柏林科技大學擔任助理教授,當時他研究的是在學術圈很流行,且比較容易發論文的SVM。”


(圖片說明:德國計算機科學家、LSTM發明人Sepp Hochreiter)

 

2010年之後,神經網絡的復興讓90年代發明LSTM的Sepp Hochreiter封神,成為了AI技術圈的絕對大牛。而沈贇博士畢業之後,投入工業界,開始將博士時對於風險控制和AI技術的本領應用在高頻交易、風險控制等金融領域中。

 

在經歷了多個人工智能的金融應用項目之後,沈贇選擇加入360金融,將自己在大數據風控領域的理論與經驗積累應用到商業實戰中。當時,伴隨著中國人均可支配收入的增長和較高的儲蓄率,中國消費市場被廣泛看好,在線消費信貸一時間成為互聯網巨頭們搶籌佈局的業務場景。談及為何在眾多橄欖枝中選擇了360金融,沈贇說,360金融有很強的科技基因且發展勢頭好,在這裡,能夠從0到1搭建整個人工智能的風控模型平臺。

 

金融風控的數據科學之道

 

沈贇加入360金融並擔任首席數據科學家之後,通過大數據與人工智能技術幫助公司控制與管理業務風險。

 

事實上,風控的核心就來自於人的信用,但在徵信領域,中國還有長的路要走。據沈贇介紹,中國有大量的徵信未覆蓋人群,這就需要用技術方式挖掘信息,並給出個人的信用評級。沈贇說:“我們做的就是通過用戶數據來判定信用風險,然後決定是否授信。”

 

對於數據科學如何賦能信貸業務,沈贇解釋到:“信貸產品的大數據風控分為貸前、貸中和貸後三個階段,每個階段都需要大數據與人工智能技術的參與。”

 

從貸前主要涉及用技術的方式判斷是否給借貸者授信,其中分為反欺詐和信用風險判斷兩大塊。反欺詐需要辨別出以騙款為目的黑色產業,在這方面,沈贇團隊通過構建關係網絡,以知識圖譜等形式找出風險點。以抱團欺詐為例,沈贇團隊在GPS的一個精度範圍內對借貸者與群體進行分析,他說:“如果一個借款申請,出現在同一個地理位置,並且連接在同一個Wifi或者4G信號基站,就很有可能被判定為抱團欺詐風險;另外,我們還參考手機聯繫人的關係網絡,如果同一批申請人存在相同的聯繫人關係網絡,可能也存在欺詐風險”。同時,360金融還會維護諸如黑中介電話號碼庫之類的數據庫,通過通訊記錄與聯繫人關係,找到與黑中介關聯上的人,並認作潛在的欺詐風險。

 

在貸前的信用評分中,沈贇利用歷史數據作為有監督機器學習的測試數據集,將借貸人群區分為好人與壞人。之後,通過規則條件、用戶分層,用分類器將用戶做信用分的區分,以拒絕低信用分的用戶,提供高額度給優質信用分用戶。

 

進入貸中環節之後,沈贇團隊則需要動態通過數據來調整用戶的貸款額度與利率,通過數據為互聯網用戶運營提供策略。

 

最後一個環節叫貸後,這是一個通過機器學習輔助收款的過程。沈贇介紹,團隊通過機器學習模型可以判斷用戶還款能力,並將用戶分類,比如容易收款的用戶、不容易收款的用戶,他們就會通過不同的運營方式進行催收。

 

在沈贇博士的一套嚴密的數據科學風控術下,360金融的借貸保持了健康的增長。在360金融披露的2019年第二季度業績報告中,授信用戶達到了1923萬,同比增長了169%,累計借款人達1254萬人,同比漲幅為167%,超90天的逾期率僅為1.02%。

 

在賦能業務的同時,360金融的數據科學能力也對外輸出,將獲客、反欺詐、風控以及貸後管理能力輸出給了多家金融機構,完成貸前、貸中、貸後的流程優化,實現降本提效。這些數字和成績的背後是沈贇博士和團隊的努力。

       

難以左右的宏觀變量

 

沈贇說自己很看好數據科學在應用層面的發展,越來越多的商業應用會反哺理論研究,因為企業和政府層面的商業投資會持續支持研發,就會相對地形成一個正向循環。

 

既然在金融風控領域,數據科學具有如此“魔力”,那又有什麼是沈贇無法左右的呢?

 

沈贇調整了看待問題的格局,從宏觀的角度闡述到:雖然數據科學助力了金融業務在中國的發展,但也存在一些非可逆性因素對行業的影響,而首當其衝的就是債務週期。在世界上大量的發達國家和地區都出現過信貸或債務週期性的風險,而如此的宏觀與系統性的變量是一個數據科學家難以把握的。

 

最近,沈贇在讀著名投資人達里奧的《債務週期:我的應對原則》一書,書中達里奧對於債務週期提出了自己的解析與思考,並從影響經濟發展的生產率和長短債務週期的角度構建了自己的避險模型。

 

 

當面對這些無法左右的宏觀變量時,沈贇選擇了沉寂與思考,他說:“因為目前這個行業還沒有碰到信貸週期的問題,但未來可能會碰到,所以,需要從中去學習一些經驗。”

 

當數據科學乘著人工智能的第三波浪潮迅速被各行各業廣泛應用時,我們是否想象過非技術的宏觀變量呢?這也正是數據科學家們正在試圖理解與解答的問題。

 

數據科學50人成員

沈贇博士,現任360金融首席數據科學家,曾在知名互金機構與量化交易公司擔任數據科學家。柏林科技大學計算機科學博士,在人工智能、應用數學與量化金融多個領域的國際頂級學習期刊和會議上發表多篇學術論文。具備深厚的機器學習與金融數學的理論功底,在量化策略研發與互金風險控制領域有著超過10年以上的研究與實戰經驗。


 

數據科學50人成員


“數據科學50人”項目是由第一財經旗下DT財經發起的中國頂尖數據科學從業者的系列專訪與社群組織,從數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審併發布。


 

關於數據科學50人


“數據科學50人”項目是由第一財經旗下DT財經發起的中國頂尖數據科學從業者的系列專訪與社群組織,從數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審併發布。



往期文章回顧:

王  煉 + 謝  樑 宣曉華

+ 丁宏偉 + 魯  穎 + 甄  浩

+ 湯奇峰 + 劉富兵 單藝

 柳  超 + 吳甘沙 + 閔萬里

+ 高  豐 陳  為 崔曉波

+ 沈志勇 杜曉夢 + 丁 磊

+ 吳海山 + 鄔學寧 逢 偉

  + 呼延如生 +萬  菁 吳 強

張智林 + 吳明輝 + 李笛

+ 李丹楓 + 劉鵬 + 危夷晨

+ 戴金權 + 朝樂門 + 俞凱

+ 張溪夢 + 肖京 張尚軒 

+ 賈西貝 顧嘉唯 + 鄭磊 

 + 陳雨強  + 陶大程 + 陳運文



https://weiwenku.net/d/201351532