Penerapan Proses Extract, Transform, Load (ETL) dalam Pengolahan Dataset Kaggle untuk Analisis Data Statistik Pemain Sepak Bola
Keywords:
ETL, Data Engineering, Random Forest, Football Analytics, Kaggle.Abstract
Pengolahan data yang berasal dari berbagai sumber sering menghadapi permasalahan seperti perbedaan format, data tidak konsisten, nilai hilang, dan redundansi atribut. Dalam analisis performa pemain sepak bola, integrasi data atribut gim FIFA dan statistik pertandingan nyata dari FBref memerlukan proses pengolahan data yang sistematis agar menghasilkan dataset yang berkualitas. Penelitian ini menerapkan metode Extract, Transform, Load (ETL) pada dataset pemain sepak bola yang diperoleh dari platform Kaggle. Tahap extract dilakukan untuk menggabungkan data mentah, tahap transform mencakup pembersihan data, penghapusan nilai kosong, dan penyaringan pemain dengan menit bermain minimal 90 menit, sedangkan tahap load menghasilkan dataset yang terstruktur. Hasil penelitian menunjukkan bahwa penerapan ETL berhasil meningkatkan kualitas dataset secara signifikan dengan mereduksi 163 kolom menjadi fitur-fitur kunci pada 28.436 baris data. Evaluasi menggunakan algoritma Random Forest Regressor mengungkapkan bahwa variabel Progressive Passes per 90 menit merupakan faktor paling berpengaruh terhadap Overall Rating pemain, diikuti oleh Expected Goals dan usia. Temuan ini menunjukkan bahwa kontribusi teknis lebih berpengaruh dalam penilaian performa dibandingkan jumlah gol semata, sehingga proses ETL terbukti efektif dalam mendukung analisis data sepak bola yang lebih objektif.