① 美國網貸平台Prosper貸款數據分析
本文主要描述了如何用Python對數據集進行評估,整理,清洗。
完成這一過程後,再通過Tableau對問題 「Prosper違約客戶具有哪些特點」 進行探索,分析和可視化。
最後,用隨機森林演算法對2009年7月後數據進行建模分析,並對仍在進行中的貸款進行違約與否的預測。
Prosper是美國第一家P2P借貸平台。此數據集來源於Udacity上的Prosper 2005~2014年的貸款數據。本文希望能通過對已完成貸款的分析,判斷出什麼類型的客戶更容易違約,並預測還未完成的貸款是否會違約。
原始數據集共包含81個變數,113937條數據,下面拆閉對部分重要變數進行說明,其他變數含義可參考 變數詞典 。
首先載入庫和數據。
然後用df.describe(),df.info()觀察數據。
此次主要分析1.什麼類型的借款人更容易違約。 2.預測未完成的貸款是否會發生違約。所以去掉無關列。
從2009年7月開始,Prosper調整了對客戶的評估方式,此次我們只對2009-07-01後的貸款進行分析。
去掉意義重復列:
Prosper對於新客戶的評分和老客戶有所區別,此次僅針對新客戶數據進行分析。
首先查看下,各變數數據缺失情況。
平台把借款狀態分為12種:Cancelled(取消)、Chargedoff(沖銷,投資人有損失)、Completed(正常完成,投資人無損失)、Current(貸款還款中)、Defaulted(壞賬,投資人有損失)、FinalPaymentInProgress(最後還款中,投資人無損失)、Past Due(逾期還款,投資人無損失)。
本文依據交易是仍在進行中還是已關閉,以及已關閉交易中投資人有無損失將所有數據分成以下三組:
Current(包含Current,Past Due)、
Defaulted(包含Defaulted,Chargedoff)、
Completed(包含Completed,FinalPaymentInProgress)。
為了便於後續分析計算,再將「Completed」改為1,「Defaulted」改為0。
已完成的貸款的違約率為defaulted_ratio_finished =26.07%
此數據集有多個特徵體現了貸款用戶的信用情況。其中,信用升御梁等級(ProsperRating)是Prosper根據自身模型建立,是用於確定貸款利率的主要依據,而信用評分(CreditScore)則是由官方信用評級機構提供。
由圖5-1可以看到,隨著信用等級(ProsperRating)的不斷升高,違約率呈現明顯的下降趨勢。
而在信用評分(CreditScore)中,低分段(640-700),違約率處於比較高的位置,且沒有太大變化。大於720的部分,隨著信用評分的升高,違約率明顯下降。
說明整體而言,借款人的信用水平越高,違約可能性越低。
在不同年收入(IncomeRange)中,Not employed的借款人,違約率最高,隨著收入增加,違約率不斷降低。
在不同貸款狀態下(Status),違約用戶的整體月收入(MonthlyIncome)明顯低於未違約用戶。
根據圖5-4的左圖,違約用戶與未違約用戶的整體負債收入比差異不大。
再根據負債收入比(DebtToIncome)的四分位點,將所有數據分成數據量接近的四組。從圖5-4的右吵運圖可以看到低比例(負債收入比0-0.12)與中等比例(0.12-0.19)的違約率都較低。較高比例(0.19-0.29)的違約率略高於前面二者。但高比例(大於0.29)的用戶違約率顯著升高。
根據銀行卡額度透支率(BankcardUtilization)的四分位點,將數據分成 '未使用','較低透支(0,0.3]','中等透支(0.3,0.7]', '較高透支(0.7,1]','嚴重透支(1,5]'五組。
可以看到,嚴重透支的借款人,違約率最高。
其次是未使用的用戶,這也是為什麼金融機構對於「白戶」會格外關注的原因。
近半年徵信查詢次數(InquiriesLast6Months)可以反應出借款人近期向金融機構申請借款的頻繁程度,間接體現了借款人近期的資金狀況。
圖5-6中,綠線表示不同查詢次數下的借款筆數。可以看到,絕大部分在7次以下。
而在查詢次數0-7區間內,違約率隨著查詢次數的增加而升高。
當前逾期(CurrentDelinquencies)可以很好的反應出借款人的信用情況。
由圖5-7,可以看到大部分借款人的當前逾期在2次以內。而在0-6的區間內,違約率隨當前逾期數的增加而升高。
為了避免某些數量極少的分類對違約率排序的影響,首先篩選出借款筆數在30以上的分類。
由圖5-8可以看到,數量最多的是1- Debt Consolidation(債務整合)。
而違約率最高的依次是15- Medical/Dental(醫療),13-Household Expenses(家庭開支),3-Business(商業),均高於30%。
根據貸款金額(LoanAmount)的四分位點,將數據分為數量接近的四組。比較有意思的是,中等借款(3100,4750)的違約率最高,而高額借款(大於8500)的違約率反而最低。
這很可能是因為能申請到高額借款的用戶,各方面條件都不錯,從而降低了違約率。
由圖5-11可以看到,在0-30區間內,隨著持續時間的增長,違約率逐漸降低,而這一區間也包含了一半左右的數據。
當持續時間繼續增長,違約率看不出有明顯變化規律。
在不同地區之間,違約率也存在比較明顯的差異。LA,SD等城市,違約率較高。UT,CO等城市,違約率較低。
整體而言,有房產的借款人,違約率要明顯低於無房產的借款人。
導入相關庫。
將數據中的字元串變數,均轉換為數字。
按照測試集30%,訓練集70%的比例劃分數據集,並使用隨機森林演算法,建立模型。
該模型測試集預測准確率為:accuracy=73.99%
對於隨機森林演算法,可以查看在這個模型中,每個特徵的重要程度。
如圖6-2所示,StatedMonthlyIncome和EmploymentStatusDuration兩個特徵最為重要。
根據此模型,對目前仍在進行中的貸款進行違約與否的預測。
仍在進行中的貸款違約率為defaulted_ratio_predict =3.64%
本文詳細描述了對於Prosper貸款數據,從數據探索到建立模型,並進行預測的完整過程。
發現月收入(StatedMonthlyIncome)以及受僱傭狀態持續時間(EmploymentStatusDuration)對是否會違約的影響程度最大。主要是因為這二者是體現借款人穩定性的重要因素。
而在模型建立方面,還可以調整此模型的參數,來進行改進從而提高准確率,也可以嘗試使用其他演算法,如邏輯回歸等,建立新的模型進行比較。
② 國考行測:資料分析
2020國考即將到來,掌握一些資料分析常考知識點的小技巧是必須的。增長率可以說是資料分析必考的考點之一,除了常規考法之外,也會有不一樣的考法即考察混合增長率。今天中公教育專家就給大家介紹求解混合增長率的技巧,希望給大家一些啟發。
一、知識鋪墊
整體增長率介於部分增長率之間,且靠近基期值較大的那一個。
【例題1】2013年二季度,我國稅收月收入同比增速逐步提高,分別為7.9%、8.3%和12.9%。截至2013年6月,全國稅收總收入完成59260.61億元,同比增長7.9%,較上年同期回落1.9個百分點。
問題:2013年第一季度我國稅收總收入同比增速低於7.9%。(判斷正誤)
【中公解析】正確。考查混合增速,第二季度中每月增速均不低於7.9%,可知第二季度增速高於7.9%,而上半年整體增速為7.9%,整體增速介於一二季度增速之間,可知第一季度增速低於7.9%,該說法正確。
二、具體應用
【例題2】2017年1~2月,全國造船完工936萬載重噸,同比增長123%;承接新船訂單221萬載重噸,同比增長133%。2月末,手持船舶訂單9207萬載重噸,同比下降22.6%,比2016年末下降7.6%。
2017年1~2月,全國完工出口船907萬載重噸,同比增長127%;承接出口船訂單191萬載重噸,同比增長122%。2月末,手持出口船訂單8406萬載重噸,同比下降25.9%。
2017年1~2月,下列說法正確的是( )
A. 全國完工進口船同比增長大於123%
B. 全國承接出口船訂單同比增長大於133%
C. 全國手持出口船訂單同比下降大於22.6%
D. 全國承接出口船訂單同比增長小於133%
【中公解析】答案B。題干出現的三個統計指標,全國的值都分成出口與進口這兩個部分,根據整體增長率介於部分增長率之間。可以得出:2017年1~2月,全國完工進口船同比增長應該小於123%,全國承接出口船訂單同比增長大於133%,全國手持出口船訂單同比下降小於22.6%,故答案B正確。
【例題3】2013年3月末,主要金融機構及小型農村金融機構、外資銀行人民幣房地產貸款余額12.98萬億元,同比增長16.4%。地產開發貸款余額1.04萬億元,同比增長21.4%。房產開發貸款余額3.2萬億元,同比增長12.3%。個人購房貸款余額8.57萬億元,同比增長17.4%。保障性住房開發貸款余額6140億元,同比增長42.4%。
問:2013年3月末,房地產開發余額同比增速為:
A.14.4% B.12.3% C.19.3% D.21.4%
【中公解析】答案A。由題意可知,2013年3月末,地產開發貸款余額同比增長21.4%,房產開發貸款余額同比增長12.3%,因此可知房地產開發余額同比增速一定介於12.3%和21.4%之間,可以排除B和D。進一步分析其基期值,2012年3月末,地產開發貸款余額為萬億,因此整體增長率即房地產開發余額同比增速應當更偏向12.3%,故選項A正確。
混合增長率在資料分析中考的還是比較多的,但是這種考點並不難,通過以上的講解大家就能掌握一些技巧。希望大家勤加練習做題總結類似答題技巧,加油!
③ Lending Club貸款數據分析——數據分析(一)
接上篇
針對 數據集的各個方面進行簡單數據分析。
主要有
先說結論:
將逾期15天以上的貸款視為壞賬,簡化貸款質量
可以看出,壞賬僅有不到8%,但是實際上的金額也是比較驚人的。
2011年後,貸款總額每年都在飆升
可以看出2012年後Lending Club飛速發展,客戶飛速增加,雖然有波動,但總體再增加
各行各業的人都有,居然是老師最多,管理者次之。
工作年限越長巧者兆越容易貸款嗎,看來是了
這里將年收入大致分為三個區間
20000以下的視為低年收入,20000-60000視為中等,高於60000的就是高收入人群
大部分客戶年收入都在20000以上
中等人群壞賬數量最多
可以看出人們貸款主要是為了債務整合和信用卡償還,債務整合就是借信用卡還其他信用卡,和信用卡償還貌似沒區別
一半客戶按揭,四成客戶租房。有孝租房子的不足10%
看來有不良記錄的嫌斗人很難申請貸款
LC在2012-2015飛速發展,能發的錢越來越多
信用等級越低,貸款利率越高
DTI:每月還款占月收入的比例
大部分的貸款客戶的DTI在35%以下,說明還款壓力不是很大
一小部分客戶DIT達到45%,存在風險
後續特徵工程中將以35%為分界 分為兩類
在右側看不見的地方還存在極小一部分,,基本屬於風險很大的貸款
LC平台以短期貸款為主,但長期貸款比例也不低
④ 拍拍貸用戶及還款數據分析案例
首先我們來分析一下LC.csv數據集,LC (Loan Characteristics) 表為標的特徵表,每支標一條記錄。共有21個欄位,包括一個主鍵(listingid)、7個標的特徵和13個成交當時的借款人信息,全部為成交當時可以獲得的信息。信息的維度比較廣,大致可以分為基本信息,認證信息,信用信息,借款信息。
基本信息:年齡、性別;
認證信息:手機認證、戶口認證、視頻認證、徵信認證、淘寶認證;
信用信息:初始評級、歷史正常還款期數、歷史逾期還款期數;
借款信息:歷史成功借款金額、歷史成功借款次數、借款金額、借款期限、借款成功日期
對於LC數據集我們提出以下四個問題:
1. 用戶畫像 ,包含使用平台貸款業務的用戶的性別比例,學歷水平,是否為舊有用戶,年齡分布等信息。
2. 資金儲備 ,每日借款金額大概多少?波動有多大?從而公司每日需准備多少資金可以保證不會出現資金短缺?
3. 用戶逾期率 ,借款人的初始評級、借款類型、性別、年齡等特徵對於逾期還款的概率有無顯著影響?哪些群體逾期還款率明顯較高?
4. 借款利率 ,哪些群體更願意接受較高的借款利率?
對數據進行清洗
依次檢查重復值、缺失值的處理,一致化以及異常值,數據集很乾凈。
1.分析用戶畫像(性別、學歷、年齡、是否首標)
按『性別』、『年齡』、『是否首標』、『學歷認證』欄位對『借款金額』進行加總,用餅圖或柱狀圖將結果可視化
結論:
1.男性客戶的貢獻的貸款金額佔到了69%,可能的原因是男性更傾向於提前消費且貸款金額較大。
2.非首標的金額佔比達到66%,說明用戶傾向於多次使用,產品粘性較高。
3.大專以下學歷的貸款金額更多,但是由於可能有很多用戶並未認證學歷,所以數據存在出入。
4.年齡段在25-30歲之間的借款金額最多,而20-35歲的人群佔比超過75%,是該產品的主力消費人群。
2.分析資金儲備
每日的借款金額大概多少?波動有多大?公司每日需要准備多少資金可以保證不會出現資金短缺?
結論:
1.每日貸款金額呈現的是一個往上的趨勢,但是每天的波動較大。
2.每月貸款分析結論:從2015年1月到2017年1月,月度貸款金額呈現上升趨勢,上升速度隨著時間增快。
3.2017年1月每日的借款金額達到5204664元,標准差為2203394,根據3σ原則,想使每日借款金額充足的概率達到99.9%,則每日公式賬上需准備5204664+2203394×3=11814846元。
3.分析逾期還款率(借款人的初始評級、借款類型、性別、年齡、借款金額等特徵)
逾期還款率 = 歷史逾期還款期數/(歷史逾期還款期數+歷史正常還款期數)
結論:
1.初始評級對於貸款者的還款能力有比較好的預測作用,EF兩級反轉可能是因為樣本數量較少,ABCD四個等級的平均逾期還款率都比較小,而EF兩級明顯增大,故公司對於這兩類貸款者要謹慎對待。
2.年齡對於逾期率的分布較為平均,25-30歲的年輕人可以重點關注。
3.APP閃電的逾期還款率明顯低於其他三種,故公司可以多考慮與「APP閃電」借款類型的合作。
4.女性的逾期率高於男性,可能是由於生活中男性收入較女性高造成的。
5.借款金額在2000以下的逾期還款率最低,2000-3000之間的最高。可以多考慮小額貸款降低逾期風險。
4.分析借款利率(借款人的初始評級、借款類型、性別、年齡、借款金額等特徵)
哪些客戶群體更願意接受較高的借款利率?
結論:
1.年齡對於借款利率的分布較為平均,差異性很小。
2.初始評級的平均借款利率由小到大排列為ABCDFDE。
3.電商的借款利率明顯低於其他三種。
4.女性所能接受的借款利率低於男性。
5.借款金額對於借款利率的分布較為平均,差異性很小。
對於以上四個問題綜合分析LC數據集:
1、「男性」、「回頭客」、「中青年」是拍拍貸用戶群體的主要特徵。
2、每日公司賬上需准備7,283,728元,方可保證出現當日出借金額不足的可能性小於0.1%。
3、「初始評級」為D的群體,借款利率與E,F大致相當,但其逾期還款率卻只有E,F群體的三分之一,相同的收益水平下風險大大降低,應多發展評級為D的客戶或提高其貸款額度。
4、通過「app閃電」貸款的逾期還款率遠低於其他項,約為其他借款類型的三分之一至四分之一,而平均借款利率卻和其他項相差不大,證明「app閃電」是該公司優質的合作方,其所引流來得客戶質量很高,「拍拍貸」應與「app閃電」繼續加深合作。
5、「電商」中的貸款客戶,收益率水平明顯較低,逾期率卻不低,在該群體中的貸款收益小,風險大。
6、從性別上看,男性群體貸款利率較高,逾期風險較小,相較女性一定程度上是更為優質的客戶,但並不明顯。
基於LCLP.csv 數據,分析用戶的還款習慣(提前一次性全部還款 、部分提前還款以及逾期還款)的金額佔比。
將數據集按借款金額分組,並按還款狀態和還款日期分成四種還款情況並進行統計:
(1)一次性全部還款:其還款狀態標記為『已提前還清該標全部欠款』;
(2)部分提前還款:其還款狀態標記為』已正常還款』,並且當期的還款日期早於到期日期;
(3)正常還款:其還款狀態標記為』已正常還款』,並且當期的還款日期即為到期日期;
(4)逾期還款:還款狀態標記為『未還款』,『已逾期還款』或者『已部分還款』。
用百分堆積柱狀圖展示在不同年齡段(15 -20 ,20 -25 ,25 -30 , 30-35 ,35 -40 ,40+ ),不同性別( 男、女),不同初始評級(A-F),不同借款類型、不同借款金額(1-1000,1000 -2000,2000-3000,3000+)、不同期數(1-24)的走勢。
在根據借款金額分組中,得到結果如下:
A組(0-2000):總金額2.85千萬。(1)一次性全部還款:佔比 10.20%;(2)部分提前還款:佔比60.95%;(3)正常還款:佔比 16.23%; (4)逾期還款:佔比 12.61%。
B組(2000-3000):總金額 7千萬。(1)一次性全部還款:佔比 10.21%;(2)部分提前還款:佔比54.96%;(3)正常還款:佔比 20.40%; (4)逾期還款:佔比 14.43%。
C組(3000-4000):總金額 10千萬。(1)一次性全部還款:佔比 14.87%;(2)部分提前還款:佔比50.96%;(3)正常還款:佔比 21.90%; (4)逾期還款:佔比 12.26%。
D組(4000-5000):總金額 7.22千萬。(1)一次性全部還:佔比 14.68%;(2)部分提前還款:佔比50.70%;(3)正常還款:佔比 22.78%; (4)逾期還款:佔比 11.85%。
E組(5000-6000):總金額 5.11千萬。(1)一次性全部還款:佔比 15.70%;(2)部分提前還款:佔比50.30%;(3)正常還款:佔比 23.24%; (4)逾期還款:佔比 10.76%。
F組(6000+):總金額 26.92千萬。(1)一次性全部還款:佔比 11.69%;(2)部分提前還款:佔比39.38%;(3)正常還款:佔比 39.79%; (4)逾期還款:佔比 9.15%。
從對借款金額分組的統計結果以及上圖結果中可以看出:
(1)借款總額6000元以上最多,3000-4000其次,說明3000-4000元的借款金額是最多的。
(2)逾期風險在各金額組表現比較平均,其中2000-3000最大,6000+最小。
(3)隨著標的金額增加,部分提前還款的總金額比例在減少,正常還款的總金額比例在增加。
在年齡分組中,得到結果如下:
A組(15-20歲):總金額0.13千萬。(1)一次性全部還款:佔比 10.44%;(2)部分提前還款:佔比62.90%;(3)正常還款:佔比 13.11%; (4)逾期還款:佔比 13.55%。
B組(20-25歲):總金額 8.60千萬。(1)一次性全部還款:佔比 13.43%;(2)部分提前還款:佔比53.2%;(3)正常還款:佔比 20.05%; (4)逾期還款:佔比 13.32%。
C組(25-30歲):總金額 20.34千萬。(1)一次性全部還款:佔比 14.00%;(2)部分提前還款:佔比47.67%;(3)正常還款:佔比 26.69%; (4)逾期還款:佔比 11.64%。
D組(30-35歲):總金額 14.94千萬。(1)一次性全部還款:佔比 12.36%;(2)部分提前還款:佔比43.92%;(3)正常還款:佔比 33.82%; (4)逾期還款:佔比 9.88%。
E組(35-40歲):總金額 8.00千萬。(1)一次性全部還款:佔比 10.81%;(2)部分提前還款:佔比44.39%;(3)正常還款:佔比 34.67%; (4)逾期還款:佔比 10.13%。
F組(40歲+):總金額 7.03千萬。(1)一次性全部還款:佔比 10.88%;(2)部分提前還款:佔比42.85%;(3)正常還款:佔比 37.21%; (4)逾期還款:佔比 9.06%。
從對年齡分組的統計結果以及上圖結果中可以看出:
(1)拍拍貸的客戶群體中25-30歲年齡組的貸款金額最高,15-20歲最低;
(2)各年齡組的還款習慣大體一致,從金額上來說,部分提前還款和正常還款是最常用的方式;
(3)逾期還款風險最高的年齡組為15-20歲組;
(4)25-30歲年齡組一次性提前還款的金額佔比最高。
在男女性別組中,得到結果如下:
男性:總還款金額 43.19千萬。(1)一次性全部還款佔比 13.16%;(2)部分提前還款佔比45.78%;(3)正常還款佔比 30.09%; (4)逾期還款佔比10.97%。
女性:總還款金額 15.85千萬。(1)一次性全部還款佔比 11.42%;(2)部分提前還款佔比48.64%;(3)正常還款佔比29.11%; (4)逾期還款佔比10.83%。
從對男女性別組的統計結果以及上圖結果中可以看出:
(1)拍拍貸男性客戶的貸款金額約為女性客戶的2.7倍;
(2)男性及女性的還款習慣大體上比較一致,從金額上來說,部分提前還款>正常還款>一次性提前還款>逾期還款;
(3)男性客戶一次性提前還款的金額佔比較女性為高;
(4)女性逾期還款的風險略低於男性;
(5)女性部分提前還款的金額佔比略大於男性。
在初始評級分組中,得到結果如下:
A級:總金額2.43千萬。(1)一次性全部還款:佔比 10.95%;(2)部分提前還款:佔比42.54%;(3)正常還款:佔比 39.73%; (4)逾期還款:佔比 6.78%。
B級:總金額 12.98千萬。(1)一次性全部還款:佔比 7.68%;(2)部分提前還款:佔比37.45%;(3)正常還款:佔比 47.65%; (4)逾期還款:佔比 7.22%。
C級:總金額 29.27千萬。(1)一次性全部還款:佔比 14.19%;(2)部分提前還款:佔比49.92%;(3)正常還款:佔比 25.00%; (4)逾期還款:佔比 10.89%。
D級:總金額 13.14千萬。(1)一次性全部還款:佔比 14.59%;(2)部分提前還款:佔比49.27%;(3)正常還款:佔比 21.85%; (4)逾期還款:佔比 14.29%。
E級:總金額 1.08千萬。(1)一次性全部還款:佔比 13.21%;(2)部分提前還款:佔比40.97%;(3)正常還款:佔比 22.91%; (4)逾期還款:佔比 22.91%。
F級:總金額 0.15千萬。(1)一次性全部還款:佔比 10.75%;(2)部分提前還款:佔比41.24%;(3)正常還款:佔比 20.68%; (4)逾期還款:佔比 27.33%。
從對初始評級分組的統計結果可以看出:
(1)B級客戶借款總額最多,佔到了大約50%的金額。B、C、D級客戶是借款的主力軍。
(2)提前一次性還款的佔比相對比較平均,其中D級最大為14.59%。
(3)逾期風險隨著級別而呈總體增加趨勢,F級客戶的逾期佔比達到了27.33%。
(4)部分提前和正常還款還是佔到了大多數。
(5)總的來說,初始評級具有重要的參考意義。
在借款類型分組中,得到結果如下:
電商:總金額8.57千萬。(1)一次性全部還款:佔比 4.22%;(2)部分提前還款:佔比26.93%;(3)正常還款:佔比 62.07%; (4)逾期還款:佔比 6.78%。
APP閃電:總金額 7.45千萬。(1)一次性全部還款:佔比 8.96%;(2)部分提前還款:佔比61.13%;(3)正常還款:佔比 18.68%; (4)逾期還款:佔比11.24%。
普通:總金額 23.47千萬。(1)一次性全部還款:佔比 17.16%;(2)部分提前還款:佔比45.09%;(3)正常還款:佔比 26.10%; (4)逾期還款:佔比 11.65%。
其他:總金額 19.56千萬。(1)一次性全部還款:佔比 12.46%;(2)部分提前還款:佔比51.33%;(3)正常還款:佔比 24.43%; (4)逾期還款:佔比 11.78%。
從對借款類型分組的統計結果可以看出:
(1)普通借款類型的借款金額總數最大,其次是其他,電商和APP閃電差不多。
(2)逾期風險電商最低,為6.78%。其他三種類型差不多。
(3)部分提前和正常還款還是佔到了大多數。值得注意的是除了電商,其他三種類型的部分提前還款都佔比很大。
從對期數分組的統計結果可以看出:
(1)借款金額是隨著期數增加呈現出下降的趨勢。
(2)不同的還款行為在不同的借款期限下的表現差異比較大,部分提前還款和正常還款是最常用的方式;
(3)逾期風險隨著借款期限變長而呈總體增加趨勢,期限為20個月的逾期金額佔比為最高,達到了57.30%;
(4)期限為13個月的提前一次性還款佔比最高,達到了16.77%。
(5)借款期限太長的樣本數量太少,不能排除偶然性。
在不同等級(A-F)、不同借款期數(1-24)和不同借款金額(0-2000,2000-3000,3000-4000,4000-5000,5000-6000,6000+)等,隨逾期天數增加而呈現的走勢。
1)x軸為逾期天數,y軸為金額催收回款率,不同參數對應不同曲線;
2)催收回款的定義為逾期90天之內的逾期還款。
不同等級(A-F)隨逾期天數催收還款率的走勢大致相同,也就是大部分人都在逾期十天之內還款,說明他們有可能忘記還款;特別是在4、5天的還款的人數和金額最多。
不同借款期數(1-24)的金額收回款率隨逾期天數的趨勢沒有明顯的規律。在12期及之前大部分人都在逾期十天之內還款,特別是在4、5天的還款的人數和金額最多。 但是13之後呈現出10天之後回款率的依然很大。也有可能是因為數據量導致異常值凸顯,但是也說明了借款期數長的回款率不夠穩定。
對不同借款金額對於進入催收回款率影響較大,借款金額越多,逾期的可能性就越大。
LCIS數據提供了該客戶投資的從2015年1月1日起成交的所有標。包括投標記錄和還款狀況。請計算並畫出該投資人從2016年9月開始到2017年2月,每月月底的累計收益曲線。
調用draw()函數,可以對任一用戶的數據畫出累積收益曲線。
⑤ Lending Club貸款數據分析
可視化報告見: 報告全文
Lending Club是美國的一家P2P金融機構,主要是通過連接投資人和借款人來達成雙方的投資及融資需求,收入主要來源於交易手續費、服務費和管理費。自2007年起,Lending Club已經為上百萬客戶提供了貸款。2015年,平台全年新設的貸款金額就已經達到了83.6億美元,遠遠超越行業第二的37億美元,優勢十分明顯。
Lending Club會對提交申請的借款人進行 資格審查 ,只有符合標准才能拿到借款:(1)FICO分數(根據Experian、TransUnion、Equifax三大徵信局信用報告)要在660分以上(2) 債務收入比例 要低於40%(3) 徵信報告 :正在使用的循環賬戶不少於2戶、6個月內徵信查詢次數小於5次、至少36個月的信用記錄。借款人通過初始信用審查後,Lending Club會再次通過評分模型對申請人進行評估,兩次的結果將會一起輸入Model Rank中,最終得到一個基礎風險子級。Lending Club會根據這個風險子級結合客戶貸款的金額和貸款期限得出最終子級。最終子級共有35個級別,分為A、B、C、D、E、F、G這7 個等級,每個等級又包含1、2、3、4、5 五個子級。最終子級的不同對應了不同的貸款利率, 子級等級越高,貸款利率則越低 。
根據Lending Club的分級流程,借款申請人越符合平台資格審查的標准,最終的風險等級越高,借款所需的利率也越低。所以本文通過以下幾個問題,藉助SQL對Lending Club 2018年第二季度的貸款數據進行分析,探究 平台的審查條件是否合理 :
1.哪個信用等級的還款意願最高?壞賬主要集中在哪個風險等級?
2.資產負債比率越低,還款能力是否越高?
3.6個月內徵信查詢次數越少,還款意願是否越高?
4.過去2年內逾期30天以上的次數越少,還款意願是否越高?
5.還款能力是否與客戶貸款目的有關?
數據集來自: Lending Club
將數據導入SQLyong後,觀察數據特徵:數據包括2018年Q2的貸款數據記錄,共130770多行,多達145個欄位,本文只選取一些 關鍵欄位 作為分析:
loan_status :貸款狀態(Fully paid-全額還款 Charged off-已指談衡注銷的壞賬 Current-當前 Default-違約不還 Late 31-120 days-逾期31-120天 In grace period-寬限期內 Late 16-30 days-逾期16-30天 Issued-已放款)
grade :信用評級
dti :資產負債比(負債總額/資產總額)*100%
inq_last 6mths :近6個月查詢次數
delinq_2yrs :近2年逾期30天以上次數
annual_inc :年收入
emp_length :工作年限
purpose :貸款目的
1.修改表名
將表名修改為Lending Club貸款情況
2.選擇子集
由於原數據欄位太多,所以只挑選了以上8個關鍵欄位作為分析
3..列名重命名
為了方便分析,把欄位名重命名為中文名:
方法一:可通過SQL語句實現欄位重命名
方法二:也可以直接在客戶端內雙擊欄位名進行修改,因為欄位較多,本文採用這種方法修改名字
4.刪除重復值
由於每行數據都是一個客戶id,所以不存侍雀在重復值
5.處理缺失值
通過語句查詢發現資產負債比存在空值,本文不進行刪除,直接將null值作為一類。依次查詢其他列沒有發現其他缺失值
1.哪個信唯做用等級的還款意願最高?壞賬主要集中在哪個風險等級?
將還款情況分為還款正常和逾期還款,還款正常包括Fully Paid 、Current、In Grace Period,逾期還款包括Late (16-30 days)、Late (31-120 days)、Charged Off、Default
輸出結果:
由此可知信用等級A-C的放款人數最多,還款意願也最強,隨著信用等級變低,正常還款數量開始降低,壞賬率逐漸上升。
2.資產負債比率越低,還款能力是否越高?
觀察數據發現,資產負債比的區間為【0,999】,按照步長為10分為[0,10)、[10,20)、[20,30)、[30,40)、(≥40)五個區間,另外加上null值,共6個區間。
輸出結果:
由圖可知資產負債比與還款意願總體呈現反比趨勢。客戶的資產負債比越低,還款意願越強,在20%-30%區間內,還款佔比最高,之後逐漸開始下降,逾期比例上升,還款能力降低。資產負債比為空值的客戶逾期還款率高達1.23%,需要對未填寫資產負債比的客戶進行放款控制。
3.6個月內徵信查詢次數越少,還款意願是否越高?
輸出結果:
近6個月查詢次數與還款意願有一定的聯系,普遍來說查詢次數越高,逾期還款的佔比越大。但是查詢次數為4次時比較特殊,這一次數下的逾期還款為0,可能為該季度的特例導致。總體來看,還款意願與查詢次數還是存在反比的關系。
4.過去2年內逾期30天以上的次數越少,還款意願是否越高?
輸出結果:
由圖可知當逾期次數在0-5次時,次數與逾期佔比呈現正比關系,過去2年內逾期的次數越多,造成壞賬的比率就越大。但當次數超過5次時,正常還款佔比都遠高於逾期還款佔比。仔細分析逾期次數超過5次的具體數據可知,除了逾期超過7次的客戶有1次逾期還款,其他次數的逾期還款人數都為0,從而使得正常還款佔比反而較高。也可能是Lending Club對於逾期次數太多的客戶控制了放款通過率。總體來說,當逾期次數在0-5次這個區間時,次數越小,還款意願會越高。
5.還款能力是否與客戶貸款目的有關?
輸出結果:
由圖可知,因為搬家、旅遊、醫療等情況下,逾期還款的佔比遠遠高於其他情況,而因為自身債務或信用卡等問題造成的逾期比例反而不高,所以對於不同的情況需要採取不同的風險監控措施。
通過本文的分析,Lending Club制定的審查條件基本合理:
1. 信用等級越高,還款比率越高 。A-C信用等級區間內的放款人數最多,正常還款的數量也最多,隨著等級的降低,壞賬率開始上升。證明平台的等級區間劃分的基本合理。
2.整體來看,客戶的 資產負債比越高,還款意願越低 ,特別是對於 未提供資產負債比 的客戶,逾期還款比例最大,所以需要 加強對這一部分客戶的監管 ,督促客戶盡快提供相關信息,降低未來的貸款壞賬。
3.平台對於近6個月內徵信查詢次數需小於5次這一規定比較合理。根據分析得知, 次數為0-4次時客戶的逾期比率很低 ;當次數為5次時,逾期佔比大幅升高。
4.對於客戶 近2年內的逾期次數,如果次數在0-5次區間內,次數與還款意願成反比關系 ,平台需要對次數較多的客戶加強管控,避免壞賬率上升。而對於 次數超過5次 的客戶,根據分析可知,這一部分的客戶人數本身就較少,基本上都能夠做到正常還款,所以對於這一區間的客戶,只要延 續以往的風控措施 即可。
5.本文還對 貸款目的 進行了分析,結果顯示對於未來有 旅遊、搬家或者醫療需要 的客戶,平台需要多加關注,以降低未來壞賬率。
⑥ 拍拍貸業務數據分析
所提供數據來自拍拍貸真實業務數據,從2015-01-01到2017-01-30的所有信用標的10%sample樣本。數據集包含LC.csv(標的特徵表數據)。
1.用戶分析
2.借貸相關業務分析
1. 導入數據
2.數據清洗
2.1完整性處理
本數據無重復值,但是在gender/age/province/tags/comments KeyWords這幾列中有部分缺失值,其中年齡的缺失值較多,數據不太具有代表性。
2.2全面性處理
在4個表中,actionTime、oerderTime都是以時間戳形式存儲,先將時間戳改為日期格式。
2.3唯一性處理
1.用戶分析
1.1用戶性別分析
從借款用戶群體看,男性居多,無論是用戶數量還是借款金額都是是女性用戶兩倍,但在逾期數量上女性稍高於男性群體。
1.2用斗游戶年齡分析
判斷年齡區間值
對年齡進行細化分組,觀察
25-32歲用戶數量最多,高達50.24%,為主要用戶,另外也表明25-32歲這個年齡段經濟壓力最大
1.3 用戶借款區間維度分析
判斷借款金額區間值
觀察金額分布情況
拍拍貸借款人借款金額主要集中在100-10000元區間,超過10萬元的大額借款不足1%。拍拍貸是小額貸款,針對的目標人群應該是一般白領以下人群。
進一步分析100-10000的借款區間各類分布情況
在100-10000借款區間內,49%是借款2000-5000,借款5000元及以下是72%,大部分人群借款在5000元及以下
1.4 用戶初始信用等級分析
初始評級主要集中在C、D評級,初始評級不高,可能是由於渠道認證信息不完善導致。
1.5 用戶借款期限分析
絕大多數用戶借款期限在5-12月,可以看一看5-12月每個月的具體情唯如況:
借款期限為6個月和12個月較多,一方面這可能跟拍拍貸的借貸產品有關,另一方面也跟用戶的習慣有關系
1.6 用戶借款利率分析
96%用戶借貸利率都在16%年利息上,50%的用戶通過拍拍貸獲得貸款的利息都在20%以上,小貸貸款只要還款金額能覆蓋逾期壞賬就是暴利
** 2 借貸相關業務分析 **
** 2.1 時間維度下的客戶數量、放款金額、逾期率等 **
隨著用戶空山銷量增長,總借款金額也隨著上升,但是在16年11月後,借款金額增長放緩。
平均借貸金額從15年8000-10000到16年3月逐漸穩定在4000元上下,在16年11月平均借貸金額緩慢下降。
月度逾期率在15年12月後維持在15%,但在16年10月開始攀升,到17年1月份約為19%。
** 2.2 逾期率分析 **
** 2.2.1 逾期類型分析 **
電商借款類型逾期率相對較高,應引起足夠重視,關注電商客戶經營狀況以及造成逾期的具體原因。
借款類型為APP閃電和普通,這兩類占據逾期用戶群體87%,應關注這兩類客戶使用資金的用途及資金去向。
其他類型是一個特殊的群體,該類客戶逾期量跟逾期率都是較高的,應關注該類用戶群體深挖原因
** 2.2.2 初始評級逾期率分析**
用戶主要初始評級集中在CD兩種類型,逾期率相對較高,應重點關注評級CD的客群,需要加以輔助手段,降低逾期率水平
(一)用戶維度分析
1、貸款客戶男性居多,維護並抓住好男性客戶群體
2、平台客戶貸款年齡主要集中在25-32歲,可以針對該群體特徵,有選擇性的進行渠道推廣,與此同時,應關注該類群體逾期率較高問題
3、借款金額范圍應該5000元以下為主要產品,5000-10000為次要產品推廣
4、應該重點關注初始信用等級為C和D的用戶群體,降低這類客戶的逾期率
5、用戶偏好的借款期限在6個月和12個月,但是逾期率較高,9個月的借款量較少,但是逾期率偏低,可以推廣三個季度的借貸產品。
6、拍拍貸借款利率多說超過20%,利率超過16%在96%以上
(二)業務分析
1、隨著用戶量增長,總借款金額也隨著上升,但是在16年11月後,借款金額增長放緩,逾期率卻在上升,應加大了風控措施。
2、平均借貸金額從15年8000-10000到16年3月逐漸穩定在4000元上下,在16年11月平均借貸金額緩慢下降,應收縮借貸金額規模,提高甄別等級。
3、借款類型應可重點推廣APP閃電和普通類型的借款,但是要提高風控水平。電商借款類型,要關注用戶經營狀況。
4、對初始信用評級在C、D的,應多拆出幾個更新維度的信用評級,用於有針對性進行風控,降低逾期率。
⑦ 我國商業銀行不良貸款的特點有哪些
不良貸款即有問題的貸款,是指借款人不能夠按照之前的貸款合同正常對商業銀行償還本金與利息。具體而言,不良貸款一般包括呆帳貸款、呆滯貸款和逾期貸款三類。呆賬貸款是指是指借款人宣告破產,清償之後,能無法還清的貸款。呆滯貸款一般是指逾期2年及2年以上仍無法償還的貸款。逾期貸款是指超過規定期限無法償還的貸款。
從國家權威機構公布的資料分析,我國目前銀行業不良貸款有以下特點。
不良貸款總量巨大,並且呈現增長速度。我國商業銀行截止2014第一季度末,不良貸款余額6461億元、比年初增長541億元,增長4%,不良貸款佔1.04%,達到最近幾年最高,五大銀行中農行和交行均超過均值,建行第一季度增長金額高達55億元。
金融企業不良貸款的形成原因是紛繁復雜的,一般認為,主要是由於銀行自身經營管理不善造成的,而我國不良貸款產生的原因卻不同,有以下幾方面。
1.政府不合理干預。主政府不合理干涉導致信貸活動不能正常運行,經濟金融市場混亂,存在潛在風險,主要表現在兩個方面:一是國家或地方要求商業銀行根據國家意願進行貸款,一是有要求銀行與企業提高經濟效益,不斷發展。
2.法律不健全,執法不嚴。
(1)法律法規不夠完善。銀行與企業之間的債權債務不夠明確,且缺乏相關法律保障,監督機構沒有充分發揮作用;對金融市場了解甚少,信貸管理水平落後,無法與國際金融接軌。
(2)執法不嚴。執法部門在執行過程中,有的地方實行地方保護主義,相關部門對執法過程進行干預,影響了公正;有的部門存在著不按照法律執行、不嚴格執法等情形,致使國有銀行無法維權。
3.企業盲目投資。企業在經營活動中不顧自身經營狀況和承受能力,盲目進行投資,從而造成了不斷加大的負面效應。很多企業經常通過一些關系從商業銀行里獲取貸款,但是後面又沒有資金了,再繼續貸款,這樣周而復始,惡性循環,一旦無法及時從商業銀行獲得貸款,這將危及到企業的正常運行,也使得銀行可能無法收回貸款。另外,由於企業沒有對項目進行科學合理的預測管理,使得無法達到預期的收益率,甚至發生虧損的現象,無法保證償債能力,促使增加的貸款形成為不良資產,貸款有繼續增加的趨勢。
4.缺乏有效金融監管機構。目前,我國金融市場監管機構很少,且大部分只是規范化監管,基本不進行風險性管理。規范化監管對市場反應不敏感,實施措施常常滯後,不能有效防範風險;金融監管機構的監督力度不強,對相關商業銀行內部管理不夠重視,大多時候只是停留在外部監管,尤其是沒有明確商業銀行相關部門職責,以及對其職責實施情況沒有進行有效監督;金融監管機構對商業銀行監管的方式主要是現場檢查,相關監管人員僅僅按照上級要求,進行檢查工作和報表統計,走的是「流水線」「形式化」,缺乏有效性和防範性;金融監管機構隊伍中,一些工作人員素質水平不高也導致很多問題。
⑧ 基於python的prosper借貸平台之數據分析
項目介紹:
p2p 借貸業兄租務具有門檻低,渠道成本低的特性,風險防控對於出借企業來說畝升非常重要。本項目需要
從大量借貸者的數據集中分析出容易違約和不容易違約的人群畫像特徵,以給業務做貸前決策使
用。同時使用機器學習演算法,實現自動識別風險人群(精準率為 89.86%),加快人工審查效率。
項目具體內容:
1、使用 python pandas 工具進行數據清洗、缺失值、異常值處理以及特徵指標篩選。
2、使用 python matplotlib 可視化工具進行探索式數據分析,展示用戶關鍵特徵如月收入、信用卡
透支情況對於違約率的影響情況。
3、使用機器學習隨機森林進行建模分析,使用學習曲線、網格搜索、交叉驗證,最終得到了一個評
分為 84.9%、精準率為 89.86%、召回率為 80.70%、auc 面積為 0.9337 數據預測模型。
本次數據訓練使用的模型是隨機森林分類演算法,通過對預處理過的數據集進行訓練,使用學習曲線、網格搜索、交叉驗證。最終得到了一個評分為84.9%、精準率為89.86%、召回率為80.70%、 auc面積為0.9337 數據預測模型。
數據預處理的基本流程與思路:
1、首先要明確有多少特徵,哪些是連續的,哪些是類別的。
2、檢查有沒有缺失值,對確實的特徵選擇恰當方式進行彌補,使數據完整。
3、對連續的數值型特徵進行標准化,使得均值為0,方差為1。
4、對類別型的特徵進行one-hot編碼。
5、將需要轉換成類別型數據的連續型數據進行二值化。
6、為防止過擬合或者其他原因,選擇是否要將數據進行正則化。
7、在對數據進行初探之後發現效果不佳,可以嘗試使用多項式方法,尋找非線性的關系。
8、根據實際問題分析是否需要對特徵進行相應的函數轉換。
導入數據集,並查看數據基本情況。可以看到prosper原始數據量比較龐大,一個有113937個樣本,80個特徵列,1個標簽列。
1.1、特徵較多,先共刪減一部分無用的特徵。
1.2 查看數據缺失情況,可以看到有40個特徵是存在數據缺失的,缺失率從0.000219-0.882909不等。下面處理缺失數據。
1.2.1 刪除缺失值比較多的特徵
下面兩個特徵缺失率太高,且與迅塵老我們要分析的相關性不大,直接刪除掉。
1.2.2 獲取數據類型是分類變數的所有特徵,並使用unknown進行填充
1.2.3 特殊變數使用計算公式進行填充
1.2.4 去掉意義重復列
1.2.5 刪除缺失率比較少的特徵的缺失數據行
處理完缺失數據後,樣本量為106290,特徵量為55
1.3 數據過濾
1.3.1 從2009年7月開始,Prosper調整了對客戶的評估方式,此次我們只對2009-07-01後的貸款進行分析。
過濾完數據後,樣本量變為82931,特徵量為54
2.1單變數分析
0為未違約人數,1位違約人數,可以看到2009.07以後,違約率為22.90%
2.1.1不同地區貸款數量分布
從圖中可以看到加利福尼亞州貸款數量遠比其他州的數量高。由於prosper總部就位於加利福尼亞州,這與實際情況一致。其他排名靠前的分別是得克薩斯、紐約、佛羅里達、伊利諾伊,貸款數據均超過了5000條。根據2015年美國各州的GDP排名,這5個州剛好排名前五,而且順序也是一致的。說明Prosper平台的用戶主要分布在美國經濟發達的地區。
2.1.2 貸款人收入情況分布
年薪在25000美金以上在美國屬於技術性白領或者有一定學歷的職員,50000美金已經是近金領階層,比如:大學教授,醫生等。從圖中可以看出Prosper平台用戶的收入水平都相對較高,有利於用戶還款,利於平台和投資者的風險控制。
2.1.3貸款人職業分布
從圖中可以看出,除了不願意透露具體職業的人,大部分用戶是教授、程序員、企業高管等具有一定社會地位的人,這部分人受過高等教育,信用有一定保障。另外,這與之前看到的收入情況相符。
2.1.4貸款人債務收入比分布
大部分用戶的債務收入比在0.2左右,超過0.5的占很少部分。說明Prosper平台用戶的還款能力還是比較樂觀的
2.1.5 貸款者信用卡使用情況
BankcardUtilization代表的是信用卡使用金額和信用卡額度的比值,可以體現用戶的資金需求。Prosper用戶多是0.5~1之間,說明用戶每個月還有信用卡要還,降低了其還款能力。
2.2 相關的關鍵因素對貸款違約率的影響
2.2.1借貸人收入IncomeRange對違約率的影響
從圖中可以看出:
1.一般來說收入越高違約率越低
2.貸款的人員主要集中在中等收入群體
2.2.2 債務收入比DebtToIncomeRatio對違約率的影響
從上圖可以看出:
1.債務收入比小於0.6時,違約數明顯小於未違約數,
2.當債務收入比大於0.6時,兩者的差距不是很明顯甚至違約數大於未違約數,說明了債務收入比越大的人越容易違約
2.2.3 借款人BankcardUtilization對違約率的影響
1.總的來說,隨著信用卡的透支比例越來越高,違約率也越來越高
2.SuperUse的違約率到了37.5%,這部分人群需要嚴格了監控,No Use人群也有31%的違約率,當初將信用卡透支比例為0和NA的數據都歸類為No Use,顯然沒有這么簡單,應該是大部分人群的NA值是為了隱藏自己的高透支比例而填寫的
2.2.4 消費信用分CreditScoreRange對違約率的影響
從上圖可以看出:
1.隨著信用分數CreditScore的上升,它的違約率在下降
2.大部分貸款者的信用分為650-800,違約率在0.06-0.02
2.2.5 過去7年借款人違約次數DelinquenciesLast7Years對違約率的影響
過去七年違約次數(DelinquenciesLast7Years)能夠衡量一個人在過去七年中徵信情況,違約一次或以上的人在借款時違約概率更大。
從上圖可以看出:
1.總體來說過去7年違約次數越多,違約率越高
2.過去7年未違約的人數相對來說比其他違約的人數高很多,具體看下面的分析
3.1 數據轉化
3.1.1類變數進行啞變數化
樣本量變為82931,特徵量為127
3.1.2 標簽變數進行二分類
已完成貸款的樣本量變為26365,特徵量為127
未違約率為:0.7709084012895885;違約率為0.22909159871041151
3.2 至此,數據預處理的工作就告一段落,保存預處理好的數據。
導入經過預處理的prosper借貸數據集
4.1 手工挑選特徵查看一下建模效果
准確率為0.7695
4.2 使用模型自己選取特徵
准確率為0.7780
4.3 使用學習曲線選取最優n_estimators
在0-200/20內學習,得到最優n_estimators=161,score = 0.8508
在151-171/20內學習,得到最優n_estimators=163,score = 0.8511
4.4 使用網格搜索調其他參數
在0-60/5內學習,得到最優max_depth=41
在0-60/5內學習,得到最優max_features=16
這里由於比較耗時,沒有進一步細化選擇更高的參數
4.4 最終模型效果
最終准確率 0.8490528905289052
混淆矩陣 :
[[5552 554]
[1175 4914]]
精準率 : [0.82533076 0.89868325]
召回率 : [0.90926957 0.80702907]
roc和auc面積為0.9337
4.5 查看各特徵的重要性
4.6 數據預測
預測的違約率0.0427
⑨ Lending Club貸款數據分析
背景
Lending club之所以一度成為全球p2p行業老大的地位得益於其風控系統,不過中美信用體系,金融行業發展程度相差很大,lending club在交易中只充當交易平台,風險由投資者自己承擔,lending club 利用其風控系統一度將壞賬控制在很棗晌小的比例,我們當然好奇這套模式具體是怎樣的?
* 如下圖所示:lending club的風控體系分為三步:
* 初步篩選(決定是否准貸)
* 進一步評估
* 深度評估(決定利率)
以上我們看到初步准貸的條件有4點,第一點借款人的信用評分不少於660分,這個要求就很不低了。看來lendingclub的准貸門檻很高,不是什麼人都能得到貸款,這也是對在lendingclub上投資客戶的負責。
第二步進一步評估過程會整合借款人的條件,將他們分為從A1到E5的25個等級
1.了解lending club的2007-2015年經營信息 ,如:每年交易數變化、每年放款金額變化、每年交易客戶數變化,每年人均貸款金額變化。
2.總壞賬數,每年的壞賬率怎麼樣?
3.客戶貸款需求多集中在什麼金額范圍內?都選擇多久還款期限?
4.利率在什麼范圍內?
5.Lenging club信用等級風控模型是否管用?壞賬出現出現在哪個信用等級上了?
6.工作多少年對於貸款發放來說是好的,什麼是不好的?
7.壞賬與年收入是否有關系?
8.什麼貸款目的是好的,什麼貸款目的是壞的?
https://www.kaggle.com/wendykan/lending-club-loan-data/home
主要包括 6大塊數據信息
* 基本貸款信息包括,貸款ID、會員ID、貸款金額、貸款期限,分期付款金額,貸款日期,貸款狀態;
* 授信信息包括信用等級,利率;
* 個人政務信息包括房屋擁有情況,工作,工作年數,年收入,資產收入比值*100;
* 其他信息包括貸款目的;
* 地理信息:郵編,州;
* 公共記錄信息包括過去兩年內信用檔案中凳纖鋒逾期30天以上的次數;
* 過去6個月的查詢數目(不包括房屋和汽車按揭);自借款人最後一次拖欠債務以來的月數等等;
2007-2015年,lending club上交易的客戶豎豎數直線攀升,由於貸款期限3年或者5年,沒有重復貸款的客戶,客戶數量的攀升給lending club平台帶來不斷增長的交易量,這應該是平台信譽積累的結果。
2007-2015年壞賬率控制在7.60%的范圍,這應該說非常不錯,但是我們要注意的是,平台這份數據集還有60萬個訂單處於『current』狀態,當中一定會出現壞賬,我們不能知道到底會最終有多少壞賬出現。
客戶一般能從lending club貸到不超過3.5萬美元,選擇三年還的人比較多。
lending club貸款利率平均值是在13.2%,還是比較低的。總體范圍在5.3%--29.0%之間。
1.很有意思的是壞賬並沒有隨著評分等級而正相關,『G』的貸款中壞賬反而最少,要知道他們的利率是最高的!有可能是因為lending club的風控措施對『G』的客戶拒貸了,控制了這部分風險。
2.『A』的壞賬少得益於信用好,這個可以理解。這當中恐怕最不能理解的就是『C』的壞賬最多。中間等級的壞賬都不怎麼好。看來對於『C』『D』兩級的風控評分政策得要重新調整下比較好了。
壞賬竟然很多出現在工作10年以上的客戶身上,不過我們看到對工作10年以上的客戶發放基數是最大的。對工作10年以上客戶的風控審查得更加嚴格比較好,推測可能是工作10年以上的用戶負債壓力的大的緣故。
⑩ 豆豆錢貸款靠譜嗎
摘要 您好,應該是正規平台,但還是要小心,以下是該平台的資料分析: