Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining
Sebelum mempelajari dari karakteristik dari himpunan data, mungkin kita harus tahu terlebih dahulu pengertian dari himpunan data itu sendiri, Himpunan data (data-set) adalah kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, ļ¬eld, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance. (Baca Juga: Deļ¬nisi dan Tipe Data: Himpunan Data, Nilai Atribut, Sifat Atribut dan Tipe Atribut)
Simber gambar: indiadataentry.co.uk
Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining
Himpunan data (data-set) mempunyai beberapa karakteristik umum yaitu :
1. Dimensionality
- Dimensionalitas dari sebuah data-set adalah'jumlah atribut yang dimiliki oleh objek-objek dalam data-set.
- Data dengan jumlah dimensi kecil punya kecenderungan berbeda secara kualitatif dibandingkan dengan data dimensi tinggi.
- Kesulitan yang berhubungan dengan data dimensi tinggi sering disebut sebagai curse ofdimensionality.
- Untuk itu pada tahap preprocessing perlu dilakukan pengurangan dimensi (dimensionality reduction).
2. Sparsity
- Untuk beberapa data-set, misalkan data dengan fitur asimetris, kebanyakan atribut dari suatu objek mempunyai nilai 0; dan biasanya kurang dari 1% mempunyai nilai tidak nol.
- Sparsity mempunyai keuntungan dalam waktu komputasi dan penyimpanan data.
- Sifat dari data berbeda pada resolusi yang berbeda.
- Pola dalam data bergantung pada level resolusi.
- Jika resolusi terlalu baik [tidak ada perbedaan/halus), pola mungkin tidak akan kelihatan; jika resolusi terlalu kasar, pola juga akan hilang