Karakteristik Umum Himpunan (Data-set) di Data Mining | Updater

Pengertian Himpunan Data di Data Mining

Sebelum mempelajari dari karakteristik dari himpunan data, mungkin kita harus tahu terlebih dahulu pengertian dari himpunan data itu sendiri, Himpunan data (data-set) adalah kumpulan dari objek dan atributnya.

Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance.

dataset mining

Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining

Himpunan data (data-set) mempunyai beberapa karakteristik umum yaitu :

1. Dimensionality

  • Dimensionalitas dari sebuah data-set adalah'jumlah atribut yang dimiliki oleh objek-objek dalam data-set.
  • Data dengan jumlah dimensi kecil punya kecenderungan berbeda secara kualitatif dibandingkan dengan data dimensi tinggi.
  • Kesulitan yang berhubungan dengan data dimensi tinggi sering disebut sebagai curse ofdimensionality.
  • Untuk itu pada tahap preprocessing perlu dilakukan pengurangan dimensi (dimensionality reduction). 

2. Sparsity

  • Untuk beberapa data-set, misalkan data dengan fitur asimetris, kebanyakan atribut dari suatu objek mempunyai nilai 0; dan biasanya kurang dari 1% mempunyai nilai tidak nol.
  • Sparsity mempunyai keuntungan dalam waktu komputasi dan penyimpanan data.

3. Resolution

  • Sifat dari data berbeda pada resolusi yang berbeda.
  • Pola dalam data bergantung pada level resolusi.
  • Jika resolusi terlalu baik (tidak ada perbedaan atau halus), pola mungkin tidak akan kelihatan; jika resolusi terlalu kasar, pola juga akan hilang

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel