Seputar Dunia IT dan Fakta Unik Lainnya

Tuesday 11 July 2017

Pengertian Data Mining, Proses, Tahapan, dan Penerapan (Makalah)

Pengertian Data Mining, Proses, Tahapan, dan Penerapan (Makalah)
Pengertian Data Mining, Proses, Tahapan, dan Penerapan | Sumber Gambar : st3telkom


I. Abstrak

Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi sejalan dengan pertumbuhan teknologi informasi. Mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Olehnya itu, data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.

Data Mining (DM) sendiri adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Seorang analis menerapkan tahapan-tahapan data mining tersebut. Sebagai prasyarat penerapan data mining, diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan dari hasilnya nanti. Penulis juga mencoba merangkum perkembangan terakhir dari teknik-teknik DM beserta implikasinya di dunia bisnis.

Kata Kunci : data mining, process, tahapan, penerapan


II. Pendahuluan

Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS (point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information” karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan data” (data tombs).

Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada database skala besar yang ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru. Sebelum populernya data mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.

Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan Negara.


III. Pengertian Data Mining


  • Pengertian Data Mining berdasarkan (JK06) adalah proses mengekstraksi pola-pola yang menarik (tidak remeh-temeh, implisit, belum diketahui sebelumnya, dan berpotensi untuk bermanfaat) dari data yang berukuran besar. Definisi data mining dari Adelman. pengertian data mining adalah proses pencarian pola data yang tidak diketahui atau tidak diperkirakan sebelumnya.
  • Definisi Data Mining menurut Berry bahwa data mining adalah aktivitas mengeksplorasi dan menganalisis data jumlah yang besar untuk menemukan pattern (pola) dan rule (aturan) yang berarti.
  • Hoffer dan McFadden mengemukakan bahwa pengertian  Data Mining adalah penemuan pengetahuan dengan menggunakan teknik-teknik yang tergabung dari statistik, tradisional, kecerdasan dan grafik komputer.
  • Pengertian Data Mining menurut Turban,dkk.(2005) data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan mesin learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait berbagai database besar (baca pengertian database).
  • Pengertian Data Mining menurut Gartner Group, data mining sebagai suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yg tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statisik dan matematika.
  • Lalu Larose berpendapat bahwa Data Mining adalah bidang yang digabung dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk pengenalan permasalahan pengambilan informasi dari database yang besar.
  • Pengertian Data Mining menurut Jiawei bahwa  data mining merupakan pemilihan atau “menambang” pengetahuan dari jumlah data yang banyak.
  • Pramudiono (2006) mengemukakan bahwa Pengertian Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

IV. Istilah dalam Data Mining

  • Knowledge Presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).
  • Data Selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database) 
  • Data Transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi) 
  • Data Cleaning (untuk menghilangkan noise data yang tidak konsisten) 
  • Data Integration (di mana sumber data yang terpecah dapat disatukan) 
  • Data Mining (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data) 
  • Pattern Evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik) 


V. Apa dan Bagaimana Proses Data Mining

Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining, diantaranya adalah :

  • Data Mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya
  • Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :
  1. Objek dari data mining adalah data yang berjumlah besar atau kompleks
  2. Tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat
  3. Data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu

Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Picture 1, menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.

Pengertian Data Mining, Proses, Tahapan, dan Penerapan (Makalah)
Picture 1 - Data Mining

Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk menyeleksi data dan evaluasi hasil data mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining.

Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :


  • Statistik : Model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining mengembangkan statistik untuk menangani data berjumlah besar secara otomatis –
  • Expert System (Sistem Cerdas) : Model pada expert system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman para ahli
  • Data Warehouse (DWH) : Sering terjadi kerancuan antara data mining dan data warehouse karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap sebagai perkakas untuk menganalisa otomatis nilai dari data itu
  • OLAP : Seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh penggunanya.

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.

Disini akan diuraikan tahap-tahap umum dari data mining tapi perlu diingat sebelum seorang analis menerapkan tahapan-tahapan data mining tersebut, sebagai prasyarat penerapan data mining, diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan dari hasilnya nanti. Pemahaman-pemahaman tersebut akan sangat membantu dalam mendesain proses data mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu, bagi dunia bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI).

VI. Penerapan Data Mining

Terkadang muncul pertanyaan tentang penerapan data mining itu sendiri. Di bidang apa saja penerapannya dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya.

Analisa Pasar dan Manajemen

Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.

Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:

Profil Customer 

Data Mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.

Identifikasi Kebutuhan Customer 

Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.

Menilai Loyalitas Customer 

VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. 

Informasi Summary 

Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.

Menembak Target Pasar 

Data Mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.

Melihat Pola Beli Pemakai dari Waktu ke Waktu 

Data Mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.

Cross-Market Analysis 

Berikut ini beberapa contoh Cross-Market Analysis :
  • Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
  • Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.
  • Cari pola penjualan

VII. Tahap-Tahap Data Mining


Pengertian Data Mining, Proses, Tahapan, dan Penerapan (Makalah)
Picture 2 - Data Mining

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan pada Picture 2 di atas. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Ada 6 tahapan-tahapan tersebut, diantaranya :

1. Pembersihan Data (untuk membuang data yang tidak konsisten dan noise)

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.


2. Integrasi Data (penggabungan data dari beberapa sumber)

Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya.


3. Transformasi Data (data diubah menjadi bentuk yang sesuai untuk di-mining)

Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.

4. Aplikasi Teknik Data Mining

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai teknik data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.


5. Evaluasi Pola yang ditemukan (untuk menemukan yang menarik/bernilai)

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan pemahaman dari hasil data mining.

6. Presentasi Pola yang ditemukan untuk Menghasilkan Aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining

VIII. Data Mining – Yang Bisa dan Tidak Bisa Dilakukan

Secara umum, data mining dapat melakukan dua hal yaitu :
  • Dapat menangani data berskala besar.
  • Memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga.

Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian secara hampir otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data mining ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual. Penelitian untuk melakukan setting secara adaptif merupakan bidang yang hangat diteliti. Data mining juga dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining seperti klasifikasi. Data Mining juga memiliki kemampuan, diantaranya :
  • Memungkinkan data mining untuk diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia.
  • Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data mining dapat diterapkan pada program skala yang lebih besar lagi.
  • Mampu menangani data dalam jumlah besar.

Sebaliknya, disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan oleh data mining, diantaranya :
  • Data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.
  • Perlu disadari bahwa data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.

Beberapa hal yang perlu diperhatikan oleh seorang analis :
  • Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya.
  • Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola yang dihasilkan sebelumnya bisa merumuskan hasilnya.
  • Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan mudah.
  • Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan OLAP, yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.
  • Seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang dihadapinya.


IX. Kesimpulan

  • Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang tidak bisa dilakukannya.
  • Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.
  • Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual, juga diartikan sebagai analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

X. Daftar Pustaka

  1. Yudho Giri Sucahyo, 2003, Penerapan Data Mining, Artikel Populer IlmuKomputer.Com (Artikel Internet www.google.com)
  2. Iko Pramudiono, 2003, Pengantar Data Mining, Kuliah Umum IlmuKomputer.Com (Artikel Internet www.google.com)
  3. Iko Pramudiono, 2006, Indo Data Mining, (Artikel Internet www.google.com)
  4. Shemwel Dennis Tambunan, The Zhemwel, (http://zhemwelelanor.blogspot.co.id/)


Download Makalahnya DISINI


No comments:

Post a Comment

BILA ANDA MEMASUKKAN LINK HIDUP, MAKA AKAN OTOMATIS TERDELETE..