Evaluasi Kinerja Metode CLARA dan FCM dalam Analisis Gerombol untuk Data Berjumlah Besar dengan Pencilan
DOI:
https://doi.org/10.12962/limits.v22i3.3118Keywords:
CLARA, Gerombol, Pencilan, FCMAbstract
Analisis gerombol adalah suatu metode statistika yang mengidentifikasi gerombol objek berdasarkan karakteristik serupa. Masalah yang sering terjadi dalam analisis gerombol adalah keberadaan data pencilan. Keberadaan pencilan dapat mengakibatkan output yang tidak sesuai dengan gambaran yang sebenarnya, sehingga gerombol yang dihasilkan tidak merepresentasikan objek dengan tepat. Masalah lain yang dapat muncul dalam analisis gerombol adalah besarnya jumlah amatan, sehingga diperlukan metode analisis yang efisien dalam penggerombolan. Penelitian ini juga memperdalam tentang kinerja keduanya terhadap jarak antara pusat gerombol dan kondisi penggerombolan melalui kajian simulasi, dimana masing-masing faktor terdiri dari tiga level yang diobservasi. Metode Clustering Large Applications (CLARA) dan Fuzzy C-Means (FCM) adalah metode yang kekar (robust) terhadap pencilan dan mampu menganalisis dataset besar. Metode FCM menggunakan nilai pembobot (w) yang optimal agar kekar terhadap pencilan. Metode CLARA memiliki sifat kekar dikarenakan menggunakan medoid sebagai pusat gerombol dan penggunaan jarak Manhattan dalam perhitungan jarak antara objek dan pusat gerombol. Metode tersebut akan dievaluasi menggunakan beberapa kriteria evaluasi kebaikan yaitu berdasarkan akurasi penggerombolan serta rasio simpangan baku dalam gerombol dan antar gerombol. Hasil analisis menunjukkan pengaruh signifikan pada masing-masing faktor dan interaksi antar faktor. Visualisasi menunjukkan bahwa peningkatan persentase pencilan mengurangi akurasi penggerombolan, sementara jumlah data yang lebih besar meningkatkan akurasi. Jarak yang lebih besar antara pusat gerombol dan kondisi gerombol yang terpisah menghasilkan rasio simpangan baku gerombol yang lebih kecil. Hasil penelitian menunjukkan bahwa metode FCM lebih efektif dalam menangani data dengan variasi yang signifikan.
Downloads
References
C. Hennig, “Cluster validation by measurement of clustering characteristics relevant to the user,” in Data Analysis and Applications 1: Clustering and Regression, Modeling-estimating, Forecasting and Data Mining, 2019. doi: 10.1002/9781119597568.ch1.
E. U. Oti, M. O. Olusola, F. C. Eze, and S. U. Enogwe, “Comprehensive Review of K-Means Clustering Algorithms,” Int. J. Adv. Sci. Res. Eng., vol. 07, no. 08, 2021, doi: 10.31695/ijasre.2021.34050.
M. Bieber, W. J. C. Verhagen, F. Cosson, and B. F. Santos, “Generic Diagnostic Framework for Anomaly Detection-Application in Satellite and Spacecraft Systems,” Aerospace, vol. 10, no. 8, 2023, doi: 10.3390/aerospace10080673.
A. Nowak-Brzezinska and W. Lazarz, “Qualitative data clustering to detect outliers,” Entropy, vol. 23, no. 7, 2021, doi: 10.3390/e23070869.
P. R. Fitrayana and D. R. S. Saputro, “Algoritme Clustering Large Application (CLARA) untuk Menangani Data Outlier,” Prism. Pros. Semin. Nas. Mat., vol. 5, pp. 721–725, 2022.
K. L. Wu, “Analysis of parameter selections for fuzzy c-means,” Pattern Recognit., vol. 45, no. 1, 2012, doi: 10.1016/j.patcog.2011.07.012.
K. Zhou and S. Yang, “Fuzzifier Selection in Fuzzy C-Means from Cluster Size Distribution Perspective,” Informatica, vol. 30, no. 3, 2019, doi: 10.15388/informatica.2019.221.
H. Y. Wang, J. S. Wang, and L. F. Zhu, “A new validity function of FCM clustering algorithm based on intra-class compactness and inter-class separation,” J. Intell. Fuzzy Syst., vol. 40, no. 6, 2021, doi: 10.3233/JIFS-210555.
C. Ramadhana, Y. D. L. W, and K. D. K. W, “Data Mining dengan Algoritma Fuzzy C-Means Clustering Dalam Kasus Penjualan di PT Sepatu Bata,” Semant. 2013, vol. 2013, no. November, 2013.
O. N. Kenger, Z. D. Kenger, E. Ozceylan, and B. Mrugalska, “Clustering of Cities Based on Their Smart Performances: A Comparative Approach of Fuzzy C-Means, K-Means, and K-Medoids,” IEEE Access, vol. 11, 2023, doi: 10.1109/ACCESS.2023.3333753.
B. Choudhary and V. Saxena, “Fuzzy C-Mean Technique for Accessing Large Database of Banking Sector,” Int. J. Intell. Syst. Appl. Eng., vol. 11, no. 4, 2023.
N. Anand and P. Vikram, “Comprehensive Analysis & Performance Comparison of Clustering Algorithms for Big Data,” Rev. Comput. Eng. Res., vol. 4, no. 2, 2017, doi: 10.18488/journal.76.2017.42.54.80.
E. Ahmadov, “Comparative Analysis of K-Means and Fuzzy C-Means Algorithms on Demographic Data Using the Pca Method,” Probl. Inf. Technol., vol. 14, no. 1, pp. 15–22, 2023, doi: 10.25045/jpit.v14.i1.03.
S. Ghosh and S. Kumar, “Comparative Analysis of K-Means and Fuzzy C-Means Algorithms,” Int. J. Adv. Comput. Sci. Appl., vol. 4, no. 4, 2013, doi: 10.14569/ijacsa.2013.040406.
B. Grün, G. Malsiner-Walli, and S. Frühwirth-Schnatter, “How many data clusters are in the Galaxy data set?: Bayesian cluster analysis in action,” Adv. Data Anal. Classif., vol. 16, no. 2, 2022, doi: 10.1007/s11634-021-00461-8.
N. F. Mohd. Azmi, H. Midi, and N. Fairus Ismail, “The Performance of Clustering Approach with Robust MM–Estimator for Multiple Outlier Detection in Linear Regression,” J. Teknol., 2012, doi: 10.11113/jt.v45.320.
Mahmudi, R. Goejantoro, and F. D. T. Amijaya, “Comparison of C-Means and Fuzzy C-Means Methods in the Districts/Cities on the Island of Kalimantan Based on the 2019 HDI Indicators,” J. EKSPONENSIAL, vol. 12, no. 2, 2021.
R. Babuska, “Fuzzy And Neural Control Disc Course Lecture Notes (October 2001),” Control, no. October, 2001.



