Pengertian Data Mining,Teks Mining,dan Web Mining
1. DATA MINING
Data Mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah yang sangat banyak dan mengambil informasi – informasi yang berkaitan dengan apa yang diperlukan seperti apa yang biasa dilakukan oleh seorang analis. Dengan bertambah banyaknya jumlah data yang ada dalam model bisnis yang kita lakukan dalam perusahaan ini, maka peran analis untuk menganalisa data secara manual perlu digantikan dengan aplikasi yang berbasis komputer yang dapat menganalisa data secara otomatis menggunakan alat yang lebih kompleks dan canggih.
Data mining dapat mengidentifikasi tren yang terdapat dalam sekumpulan data. Melalui algoritma yang rumit, kita akan memiliki kemampuan untuk menentukan kunci utama dari sebuah proses bisnis atau menemukan kesempatan baru. Beberapa teknik yang sering digunakan dalam data mining :
- Artificial Neural Network : model prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang terdapat pada mahluk hidup.
- Decision Tree : struktur yang berbentuk pohon yang menggambarkan kumpulan keputusan. Decision tree ini akan membentuk aturan klasifikasi dari kumpulan data.
- Genetic Algorithms : teknik optimasi yang menggunakan proses seperti kombinasi genetik, mutasi dan seleksi alam sebagai pola berdasarkan konsep evolusi
- Nearest Neighbor Method : teknik yang mengklasifikasi setiap rekord dalam kumpulan data berdasarkan kombinasi dari klas kumpulan rekord yang mirip dalam kumpulan data historis.
- Rule Induction : ekstraksi aturan sebab-akibat dari data secara statistik
Tahap – tahap yang dilakukan dalam data mining :
- Pembersihan data untuk menghilangkan data yang tidak konsisten dan noise
- Integrasi data dari berbagai sumber
- Transformasi data menjadi bentuk yang sesuai untuk dilakukan mining
- Aplikasi teknis data mining
- Evaluasi pola yang ditemukan untuk menemukan pola yang menarik atau bernilai
- Presentasi pengetahuan dengan teknik visualisasi
Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponenkomponen dalam data mining yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen.Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks (text clustering).
Text mining bisa dianggap subjek riset yang tergolong baru. Text mining dapat memberikan solusi dari permasalahan seperti pemrosesan, pengorganisasian / pengelompokkan dan menganalisa unstructured text dalam jumlah besar.Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti Data mining, Information Retrieval, Statistik dan Matematik, Machine Learning, Linguistic, Natural Languange Processing, dan Visualization. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan text, preprocessing akan konten text, pengumpulan data statistik dan indexing dan analisa konten.
Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data mining, data yang digunakan adalah structured data, sedangkan pada text mining, data yang digunakan text mining pada umumnya adalah unstructured data, atau minimal semistructured. Hal ini menyebabkan adanya tantangan tambahan pada text mining yaitu struktur text yang complex dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat.
Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan data yang relatif besar pada layanan world wide web. Web mining teridiri atas tiga bagian yaitu: web content mining, web structure mining, dan web usage mining.
Web content mining adalah suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video, metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung melakukan miningterhadap data, dan kedua melakukan pencarian serta mengimprove hasil pencarian seperti layaknya search engine.
Web struncture mining dikenal juga sebagai web log mining adalah teknik yang digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman website dan halaman web. Salah satu manfaatnya adlah untuk menentukanpagerank pada suatu halaman web.
Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log. Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage mining adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang sesuai.
EmoticonEmoticon