1 minute read

Tags: , , ,

  • 期中考

    • T-Brain 信用卡盜刷偵測
    • kaggle 影像分類

T-brain 信用卡

  • 超過 AIA_baseline,訂為0.45
bacno 歸戶帳號
txkey 交易序
locdt 授權日期
loctm 授權時間
cano 交易卡號
contp 交易類別
etymd 交易型態
mchno 特店代號
acqic 收單行代碼
mcc MCC_CODE
conam 交易金額-台幣 (經過轉換)
ecfg 網路交易註記
insfg 分期交易註記
iterm 分期期數
stocn 消費地國別
scity 消費城市
stscd 狀態碼
ovrlt 超額註記碼
flbmk Fallback註記
hcefg 支付形態
csmcu 消費地幣別
flg_3dsmk 3DS交易註記
fraud_ind 盜刷註記

kaggel 圖片辨識

  • class 總共有 5 位偶像,分別為 class 0, 1, 2, 3, 4,其中

    • class 0 = rika (渡边梨加)
    • class 1 = risa (渡邊理佐)
    • class 3 = akane (守屋茜)
    • class 2 = yui (小林由依)
    • class 4 = neru (長濱ねる)

Imgur

  • 練習方向: CNN, Data Augmentation, Tensorflow, Kares Metrics: Accuracy

助教的喜好 KKKKKK

midterm 講解 & 分享

  1. T-brain

    • 建議:

      • 建立 自己的 base line
        • 先跑一次啦,raw data (都不做 feature engineering 的資料)
    • reference:

    • code (feature engineering):

      • 看盜刷比例 75 / 1 (還算OK)
      • .info()
        • object 不是數字(類別)
      • .isnull().sum() 缺失值
      • Domain 重要
        • 極盡可能挖 Domain 的 knowhow !!!!!!!
        • EX: 特店: 賣你東西的店家 、 收單行: 收你$的單位(不一定是銀行端)
      • .describe() 看仔細
        • EX: 可以看 loctm 授權時間 欄位的 max
          • 235959 時/分/秒
        • EX: 可以看 locdt 授權日期 欄位的 max
        • 透過這些可以知道 秘密 唷~~~
      • 比較的時候
        • 用 ratio 來呈現
          • EX: 在某交易型態 (沒盜刷比例 v.s. 有盜刷比例)
          • EX: 幣別 (沒盜刷比例 v.s. 有盜刷比例)
          • EX: 國別 (沒盜刷比例 v.s. 有盜刷比例)
      • 在做 feature engineering 時候新建 feature column
        • 不要搞到偏移 gound ture
          • 在 teset data 中沒有 gound true 可以當 reference
      • one-hot encoding
        • 在 tree 中 其實不用
      • 看 heatmap

      • EDA: 一個消費城市是否只對到一個消費國別? 對到多個!!!?
      • EDA: 盜刷金額
  2. kaggle

  • 看原始資料,資料太糟,資料前處理
  • model
  • learning code
  • corss validation
    • 切四組找出最好的 model