RSS

2.4 Algoritma Naive Bayes Classification

22 Mar

Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai teorema Bayes. Teorema tersebut dikombinasikan dengan ”naive” dimana diasumsikan kondisi antar atribut saling bebas [1]. Pada sebuah dataset, setiap baris/dokumen I diasumsikan sebagai vector dari nilai-nilai atribut <x1,x2,…,x3> dimana tiap nilai-nilai menjadi peninjauan atribut Xi (iЄ[1,n])). Setiap baris mempunyai label kelas ci Є {c1,c2,…,ck} sebagai nilai variabel kelas C, sehingga untuk melakukan klasifikasi dapat dihitung nilai probabilitas p(C=ci|X=xj) , dikarenakan pada Naïve Bayes diasumsikan setiap atribut saling bebas, maka persamaan yang didapat adalah sebagai berikut :

Peluang p(C=ci|X=xj) menunjukkan peluang bersyarat atribut Xi dengan nilai xi diberikan kelas c, dimana dalam Naïve Bayes, kelas C bertipe kualitatif sedangkan atribut Xi dapat bertipe kualitatif ataupun kuantitatif.

Ketika atribut Xi bertipe kuantitatif maka peluang p(X=xi|C=cj) akan sangat kecil sehingga membuat persamaan peluang tersebut tidak dapat diandalkan untuk permasalahan atribut bertipe kuantitatif. Maka untuk menangani atribut kuantitatif, ada beberapa pendekatan yang dapat digunakan seperti distribusi normal (Gaussian) :

Ataupun kernel density estimation (KDE) :

Selain dua pendekatan distribusi tersebut, ada mekanisme lain untuk menangani atribut kuantitatif (numerik) yaitu Diskritisasi. Proses diskritisasi sendiri terjadi saat proses persiapan data atau saat data preprocessing, dimana atribut numerik X diubah menjadi atribut nominal X*. Performansi klasifikasi Naive Bayes akan lebih baik ketika atribut numerik didiskritisasi daripada diasumsikan dengan pend ekatan distribusi seperti di atas [Dougherty]. Nilai-nilai numerik akan dipetakan ke nilai nominal dalam bentuk interval yang tetap memperhatikan kelas dari tiap-tiap nilai numerik yang dipetakan, penggambaran perhitungan Naive Bayesnya seperti berikut:

Interval 1 (i1) Interval 2 (i2)
Kelas 1 (c1) Rumus Naive Bayes nya menjadi :  

ket :

p(I=ij|C=ci) : peluang interval i ke-j untuk kelas ci

p(C=ci|I=ij) : peluang kelas ci pada interval i ke-j

p(I=ij) : peluang sebuah interval ke-j pada semua interval yang terbentuk

p(C=ci) : peluang sebuah kelas ke-i untuk semua kelas yang ada di dataset

Kelas 2 (c2)

 

 
2 Comments

Posted by on March 22, 2011 in BAB [2]

 

Tags: , , , , ,

2 responses to “2.4 Algoritma Naive Bayes Classification

  1. Intan

    April 7, 2011 at 9:27 am

    Ini penjelasan dari bagian yang mana?

     
    • ditut

      April 7, 2011 at 12:25 pm

      ini penjelasan dari bagian bab 2 mbak, hehe yg landasan teori.. itu belum di update lagi..

       

Leave a comment