5 Algoritma Machine Learning
Prediksi Biaya
Asuransi Kesehatan
Analisis komparatif menggunakan Linear Regression, ANN, RNN/LSTM, K-Means Clustering, dan Backpropagation manual untuk memprediksi premi asuransi secara akurat.
Best Model
RNN/LSTM
R² = 0.8786
Dataset
1,338
Records
Algoritma
5
ML Models
5 Algoritma ML yang Digunakan
Setiap model memberikan perspektif unik dalam memprediksi biaya asuransi
01
Linear Regression
Model baseline yang memodelkan hubungan linier antara fitur dan biaya asuransi.
MAE: 4,174
R²: 0.7826
02
Artificial Neural Network
Jaringan saraf tiruan multilayer (128→64→32→1) dengan dropout dan batch normalization.
MAE: 2,536
R²: 0.8645
03
RNN / LSTM
Long Short-Term Memory network untuk menangkap pola sekuensial dalam data tabular.
MAE: 2,644
R²: 0.8786
04
K-Means Clustering
Segmentasi unsupervised untuk menemukan kelompok pemegang polis yang serupa (K=3).
K = 3
Silhouette: 0.2085
05
Backpropagation
Implementasi manual algoritma backpropagation menggunakan NumPy murni (tanpa framework).
MAE: 2,974
R²: 0.8363
Tentang Dataset
Medical Cost Personal Dataset — Kaggle
1,338
Total Baris Data
7
Fitur
$13,270
Rata-rata Biaya
0
Missing Values
| Fitur | Tipe | Deskripsi | Range |
|---|---|---|---|
| age | Numerik | Usia pemegang polis | 18 – 64 |
| sex | Kategorikal | Jenis kelamin | male / female |
| bmi | Numerik | Body Mass Index | 15.96 – 53.13 |
| children | Numerik | Jumlah tanggungan | 0 – 5 |
| smoker | Kategorikal | Status perokok | yes / no |
| region | Kategorikal | Wilayah AS | 4 region |
| charges | Target | Biaya asuransi (USD) | 1,121 – 63,770 |
Exploratory Data Analysis
Visualisasi distribusi dan korelasi antar fitur dataset