Hai
guys, kembali lagi nih sama admin buat cuap cuap bahas materi kuliah admin. Jadi sebenernya, materi ini masuk ke mata kuliah Kualitas Data, mata kuliah ini ngajarin kita gimana data yang di output in nantinya seragam dan berkualitas. Keren ga sih anak Sistem Informasi? Data aja dibikin kualitas, apalagi kamu wkwk. Oke kita fokus yaaa. Kali ini kita bakal lanjutin pembahasan admin di postingan sebelumnya. Kalo kemaren tentang import data, sekarang admin akan membahas tentang data cleasing nya. Oke langsung aja yaa kalian buka DQS SQL Server kaliaaan;)
- Step I : Mapping
Nah sebelum kalian masuk ke tahap mapping, pasti kalian akan dihadapkan pada 3 pilihan, gausa bingung, langsung aja pilih "Data Quality Project" lalu create New Data Quality Project dan pilih activity "Cleansing". Setelah kalian klik, pasti kalian akan diarahkan menuju proses mapping. Proses ini untuk melakukan input data yang ada pada data source (baik sql atau excel atau csv). Pilih nama file nya, lalu kelompokkan data pada data source dengan domain yang tersedia. Setelah proses mapping selesai, klik Next.
- Step II : Cleanse
Setelah melakukan mapping, kalian akan diarahkan menuju proses cleanse. Untuk memulai proses cleanse, klik button start dan tunggu sampai data profiling terisi lengkap.
Setelah selesai, pofiler secara otomatis akan merekam seluruh kegiatan atau ciri dari data yang telah di inputkan sesuai dengan rules yang kita buat sebagai aturan cleasing dan matching data (cek postingan sebelumnya). Setelah semua dirasa cukup, klik Next untuk melanjutkan proses.
- Step III : Manage and View Results
Proses selanjutnya adalah melihat hasil cleanse dan melakukan pembenahan, pengecekan, dan pembenaran terhadap data yang salah atau dirasa kurang valid. Contohnya pada Domain Birth Date, tidak terdapat kesalahan apapun, dan hanya terdapat 279 data baru yang telah ter-input.
Pada Domain Email Addresss, terdapat 4 data invalid dikarenakan terjadi kesalahan pada penulisan email (tidak sesuai dengan rule yang di tetapkan di postingan sebelumnya), sehingga sistem tidak mentolerir hal tersebut. Data yang invalid diperlukan revisi data agar bisa di approve sebagai data yang baik.
Pada Composite Domain, terdapat 290 data baru yang telah ter-input. Data tersebut menjadi data baru dimana merekap nama lengkap karyawan.
Berbeda pula dengan Domain Job Title, dimana terdapat usulan kata yang mendekati dengan persentase confidence yang telah di tetapkan. Selain itu, terdapat pula data corrected, dimana data yang telah ter-input secara otomatis di revisi penulisannya dikarenakan mendekati persentase maksimal confidence pada data.
Pada Composite Domain Title Enrichment, terdapat kondisi yang serupa dengan Job Title dimana terdapat pembenahan otomatis dari sistem dikarenakan persentase confidence yang terdapat pada data mendekati persentase confidence data yang telah ditetapkan. Selain itu, composite domain ini mampu mengisi kekosongan Title atau Gender atau Marital Status dikarenakan kondisi yang saling melengkapi dan aturan yang saling berkaitan.
- Step IV : Export
Step terakhir yaitu export data hasil cleansing ke dalam file sql, csv, atau excel. Simpan saja data hasil cleansing dengan pilihan data only agar tidak membutuhkan waktu lama pada export data dan hasil export tersebut berguna untuk kegiatan matching nanti dan rekap kegiatan cleansing data. Setelah export data selesai, kalian dapat klik finish untuk melakukan publikasi kegiatan olah data.
Okayy
sekian dulu ya bahasan TUTORIAL DQS SQL SERVER DATA CLEANSING &
DATA MATCHING [PART DATA CLEANSING]. Buat kalian yang kepo tentang
tahapan-tahapan selanjuutnya, pantengin terus blog aku yaa. Jika kalian
punya pengetahuan lebih terkait postingan kali ini, kalian bisa berbagi
di kolom comment. Thankyouuu. See youu:))
hallo novia sayang
ReplyDelete