Kontan Online
  : WIB    --   
indikator  I  

Cleansing untuk mendukung analisis bisnis

 Cleansing untuk mendukung analisis bisnis
Praktisi Teknologi Big Data Universitas Multimedia Nusantara

Anda suka mengolah data? Coba perhatikan tabel data sederhana di bawah ini. Terlihat bahwa nilai penjualan dari PT Jasa Normal Trading memiliki porsi terbesar (37%) dan yang terkecil PT Manufaktur Untung Besar (16%).

Tapi ada yang aneh dari data tersebut, yaitu terdapat dua perusahaan yang memiliki nama hampir sama, yaitu PT Manufaktur Untung Besar dan PT Untung Besar Manufacture. Ini perusahaan berbeda atau perusahaan sama tapi salah tulis?

Setelah diperiksa, ternyata memang terjadi kesalahan penulisan. Nama yang benar adalah PT Manufaktur Untung Besar. Alhasil, porsi penjualan terbesar sekarang adalah milik PT Manufaktur Untung Besar (42%) yang sebelumnya terkecil.

Contoh sangat sederhana ini menunjukkan pentingnya proses membersihkan "data kotor" menjadi data dengan kualitas tinggi, sehingga analisa tidak menjadi salah dan berakibat fatal dalam pengambilan keputusan. Proses ini sering disebut sebagai data cleansing.

data cleansing adalah proses untuk mencari dan memperbaiki data yang tidak akurat, tidak lengkap dan tidak masuk akal. Ini biasanya merupakan perpaduan antara proses otomatisasi dan proses manual, dan tidak akan mendapatkan data bersih seratus persen.

Proses ini juga sangat memakan waktu dan hampir pasti tidak akan terhindarkan. New York Times pernah mempublikasikan bahwa 50% sampai 80% waktu akan dihabiskan untuk mempersiapkan data dan melakukan data cleansing.

Jika kita kembali ke contoh pada awal artikel, pengecekan sangat sederhana karena datanya sangat kecil. Katakanlah jika ada satu perusahaan menengah ke atas yang memiliki 50.000 pelanggan, jumlah kombinasi data yang harus diperiksa adalah 1,24 miliar akan memakan waktu 14 hari non stop jika menggunakan komputer dengan kemampuan memproses 1.000 kombinasi data per detik.

Sangat banyak faktor terjadinya data kotor, tapi umumnya adalah sistem digunakan untuk memasukkan terlalu fleksibel dan beragam. Jika terlalu fleksibel, pengguna akan memasukkan data sesuai dengan persepsinya dan tiap orang akan cenderung memiliki persepsi berbeda. Jika sistem yang beragam diintegrasikan, kelengkapan dan format data juga akan banyak memunculkan inkonsistensi.

Pencegahan terjadinya data kotor adalah penerapan kerangka kerja seperti standard operating procedure (SOP) dan proses validasi kuat pada sistem entri data.

Tetapi karena proses bisnis yang berkembang cepat, kompromi terhadap sistem terkadang dilakukan dalam waktu singkat dan data menjadi kotor kembali. Ini terutama sangat sering terjadi untuk sistem entri data pelanggan, produk dan karyawan, dari divisi sales/marketing dan human resources (HR).

Menjaga kualitas data yang baik melalui proses data cleansing sangat penting untuk menghindari analisa yang bias dan dapat berujung pada pengambilan keputusan bisnis yang salah dan fatal. Semakin cepat bisnis berkembang, biasanya semakin banyak data kotor dihasilkan.

Walaupun bagaimana kotornya data Anda saat ini, penulis menyarankan agar segera menerapkan teknologi data cleansing dan membentuk SOP yang kuat untuk mencegah terjadinya data kotor. Ini juga memberi keuntungan tambahan berupa kesempatan bisnis. Sebab, teknologi yang biasa digunakan untuk data cleansing bisa digunakan untuk memproses data dari sosial media dan media internet sehingga mendapatkan informasi supply and demand yang sangat berharga.