aiacademy: 期中考!!!!!
T-brain 信用卡
- 超過 AIA_baseline,訂為0.45
bacno | 歸戶帳號 |
txkey | 交易序 |
locdt | 授權日期 |
loctm | 授權時間 |
cano | 交易卡號 |
contp | 交易類別 |
etymd | 交易型態 |
mchno | 特店代號 |
acqic | 收單行代碼 |
mcc | MCC_CODE |
conam | 交易金額-台幣 (經過轉換) |
ecfg | 網路交易註記 |
insfg | 分期交易註記 |
iterm | 分期期數 |
stocn | 消費地國別 |
scity | 消費城市 |
stscd | 狀態碼 |
ovrlt | 超額註記碼 |
flbmk | Fallback註記 |
hcefg | 支付形態 |
csmcu | 消費地幣別 |
flg_3dsmk | 3DS交易註記 |
fraud_ind | 盜刷註記 |
kaggel 圖片辨識
-
class 總共有 5 位偶像,分別為 class 0, 1, 2, 3, 4,其中
- class 0 = rika (渡边梨加)
- class 1 = risa (渡邊理佐)
- class 3 = akane (守屋茜)
- class 2 = yui (小林由依)
- class 4 = neru (長濱ねる)
- 練習方向: CNN, Data Augmentation, Tensorflow, Kares Metrics: Accuracy
助教的喜好 KKKKKK
midterm 講解 & 分享
-
T-brain
-
建議:
- 建立 自己的 base line
- 先跑一次啦,raw data (都不做 feature engineering 的資料)
- 建立 自己的 base line
-
reference:
-
code (feature engineering):
- 看盜刷比例 75 / 1 (還算OK)
.info()
- object 不是數字(類別)
.isnull().sum()
缺失值- Domain 重要
- 極盡可能挖 Domain 的 knowhow !!!!!!!
- EX: 特店: 賣你東西的店家 、 收單行: 收你$的單位(不一定是銀行端)
.describe()
看仔細- EX: 可以看
loctm 授權時間
欄位的 max235959
時/分/秒
- EX: 可以看
locdt 授權日期
欄位的 max - 透過這些可以知道 秘密 唷~~~
- EX: 可以看
- 比較的時候
- 用 ratio 來呈現
- EX: 在某交易型態 (沒盜刷比例 v.s. 有盜刷比例)
- EX: 幣別 (沒盜刷比例 v.s. 有盜刷比例)
- EX: 國別 (沒盜刷比例 v.s. 有盜刷比例)
- 用 ratio 來呈現
- 在做 feature engineering 時候新建 feature column
- 不要搞到偏移 gound ture
- 在 teset data 中沒有 gound true 可以當 reference
- 不要搞到偏移 gound ture
- one-hot encoding
- 在 tree 中 其實不用
-
看 heatmap
- EDA: 一個消費城市是否只對到一個消費國別? 對到多個!!!?
- EDA: 盜刷金額
-
-
kaggle