此類數(shù)據(jù)主要是缺少某些應(yīng)包括的信息,如供應(yīng)商名稱、分公司名稱、客戶區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細表不匹配等。那么對于這一類型的數(shù)據(jù)就需要過濾出來,并在規(guī)定的時間內(nèi)補全,之后再寫入數(shù)據(jù)倉庫。
二、錯誤數(shù)據(jù)
這類數(shù)據(jù)的原因是業(yè)務(wù)系統(tǒng)完善接收輸入后沒有判斷直接寫入背景數(shù)據(jù)庫,如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)、日期格式不正確、日期越界等。這種類型的數(shù)據(jù)還需要進行分類,對于類似于全角字符、數(shù)據(jù)前后出現(xiàn)不可見字符的問題,只能通過編寫SQL語句來查找,然后讓用戶在業(yè)務(wù)系統(tǒng)改后抽取。日期格式不正確或日期越界的錯誤會導(dǎo)致ETL運行失敗,這種錯誤需要通過SQL的方式從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫挑選出來,交給業(yè)務(wù)主管部門,要求限期修改,改后提取。
三、重復(fù)數(shù)據(jù)
這種類型的數(shù)據(jù),尤其是在維表中,就會出現(xiàn)這種情況,所以要把所有重復(fù)數(shù)據(jù)記錄的字段都寫出來,讓客戶進行確認和分析。
資料整理是一個反復(fù)的過程,只有不斷地發(fā)現(xiàn)問題,解決問題,才能在幾天內(nèi)完成。關(guān)于是否過濾,一般需要客戶確認,被過濾的數(shù)據(jù),寫到Excel文件把濾數(shù)據(jù)寫到數(shù)據(jù)表,ETL開發(fā)初期每天都會把過濾數(shù)據(jù)的郵件發(fā)送給業(yè)務(wù)單位,促使他們盡快修改錯誤,并可以作為未來驗證資料的基礎(chǔ)。要注意的是,不能過濾有用的數(shù)據(jù),要仔細驗證每條過濾規(guī)則,然后讓用戶確認。
搞清楚了數(shù)據(jù)清洗的原則和理論,接下來進行數(shù)據(jù)清洗就容易很多啦~
看完上面的內(nèi)容是不是收獲滿滿呢?以上就是本篇文章的全部內(nèi)容,如有疑問歡迎前來咨詢了解。