Perbedaan antara bias pembelajaran mesin dan varian
- 3192
- 188
- Richard Hegmann MD
Kita hidup di dunia di mana algoritma ada di mana -mana dan banyak dari kita menggunakannya, bahkan mungkin tidak menyadari bahwa algoritma terlibat. Untuk memecahkan masalah di komputer, kami membutuhkan algoritma. Pembelajaran mesin tergantung pada sejumlah algoritma untuk mengubah set data menjadi model. Bias dan varian adalah dua konsep mendasar untuk pembelajaran mesin. Penting untuk memahami keduanya dalam hal akurasi dalam algoritma pembelajaran mesin apa pun.
Apa itu bias?
Kesalahan prediksi untuk setiap algoritma pembelajaran mesin dapat dipecah menjadi tiga bagian - kesalahan bias, kesalahan varians, dan kesalahan yang tidak dapat direduksi. Bias adalah fenomena yang terjadi dalam model pembelajaran mesin karena asumsi yang salah dalam proses pembelajaran mesin. Bias seperti kesalahan sistematis yang terjadi ketika suatu algoritma menghasilkan hasil yang bias secara sistematis karena beberapa asumsi yang salah dalam proses pembelajaran mesin. Mereka adalah asumsi yang dibuat oleh model untuk membuat fungsi target lebih mudah dipelajari.
Bias tinggi berarti kesalahan dalam pelatihan serta data pengujian lebih besar. Selalu direkomendasikan bahwa algoritma menjadi rendah bias untuk menghindari masalah underfitting. Katakanlah Anda telah mengambil model yang tidak dapat memperoleh bahkan pola penting dari set data - ini disebut underfitting. Jadi, sederhananya, bias terjadi dalam situasi di mana Anda telah menggunakan algoritma dan tidak pas.
Apa itu varian?
Varians adalah perubahan akurasi prediksi pembelajaran mesin antara data pelatihan dan data uji. Jika variasi dalam dataset membawa perubahan dalam kinerja model, itu disebut kesalahan varians. Itu adalah jumlah yang perkiraan fungsi target akan berubah jika data pelatihan yang berbeda digunakan. Fungsi target diasumsikan dari data pelatihan dengan algoritma pembelajaran mesin, sehingga beberapa varian dalam algoritma diharapkan.
Varians tergantung pada satu set pelatihan tunggal dan menentukan ketidakkonsistenan prediksi yang berbeda menggunakan set pelatihan yang berbeda. Varians rendah menunjukkan perubahan kecil pada estimasi fungsi target dengan perubahan pada dataset pelatihan, sementara varian tinggi menunjukkan perubahan besar pada estimasi fungsi target dengan perubahan pada dataset pelatihan. Algoritma pembelajaran mesin dengan varian tinggi sangat dipengaruhi oleh spesifik data pelatihan.
Perbedaan antara bias dan varian
Arti
- Bias adalah fenomena yang terjadi dalam model pembelajaran mesin di mana Anda telah menggunakan algoritma dan tidak pas. Ini berarti bahwa fungsi yang digunakan di sini tidak terlalu relevan dengan skenario dan tidak dapat mengekstraksi pola yang benar. Varians, di sisi lain, menentukan jumlah variasi bahwa estimasi fungsi target akan berubah jika data pelatihan yang berbeda digunakan. Dikatakan tentang seberapa banyak variabel acak menyimpang dari nilai yang diharapkan.
Skenario
- Bias adalah perbedaan antara nilai yang diprediksi dan nilai aktual. Bias rendah menunjukkan lebih sedikit asumsi tentang bentuk fungsi target, sedangkan bias tinggi menunjukkan lebih banyak asumsi tentang bentuk fungsi target. Contoh di mana model tidak dapat menemukan pola dalam set pelatihan disebut underfitting. Varians adalah ketika model mempertimbangkan fluktuasi data. Model ini berkinerja baik pada pengujian data dan mendapatkan akurasi tinggi tetapi gagal melakukan pada data baru dan tidak terlihat.
Bias pembelajaran mesin vs. Varians: Bagan Perbandingan
Bias | Perbedaan |
Bias adalah fenomena yang terjadi dalam model pembelajaran mesin di mana algoritma digunakan dan tidak pas dengan baik. | Varians Menentukan jumlah variasi bahwa estimasi fungsi target akan berubah jika data pelatihan yang berbeda digunakan. |
Bias mengacu pada perbedaan antara nilai yang diprediksi dan nilai aktual. | Varians mengatakan tentang seberapa banyak variabel acak menyimpang dari nilai yang diharapkan. |
Model tidak dapat menemukan pola dalam dataset pelatihan dan gagal untuk data yang terlihat dan tidak terlihat. | Model menemukan sebagian besar pola dalam dataset dan bahkan belajar dari data yang tidak perlu atau noise. |
Ringkasan
Model apa pun yang Anda miliki, itu harus menjadi keseimbangan yang sempurna antara bias dan varian. Tujuan dari setiap algoritma pembelajaran mesin yang diawasi adalah untuk mencapai bias rendah dan varian rendah. Namun, skenario ini tidak dimungkinkan karena keduanya terhubung secara terbalik satu sama lain dan praktis tidak mungkin untuk memiliki model pembelajaran mesin dengan bias rendah dan varian rendah. Tidak seperti bias, varian adalah ketika model memperhitungkan fluktuasi data dan bahkan noise. Jika Anda mencoba mengubah algoritma agar lebih sesuai dengan dataset yang diberikan, itu mungkin berubah menjadi bias rendah tetapi akan meningkatkan varians.
Apa bias dan varian dengan contoh?
Bias dalam pembelajaran mesin adalah fenomena yang terjadi ketika algoritma digunakan dan tidak pas. Beberapa contoh bias termasuk bias konfirmasi, bias stabilitas, dan bias ketersediaan. Algoritma ML dengan varian rendah termasuk regresi linier, regresi logistik, dan analisis diskriminan linier.
Apa 3 jenis bias pembelajaran mesin?
Tiga jenis bias adalah bias informasi, bias seleksi, dan membingungkan.
Bagaimana pembelajaran mesin dapat mengurangi bias dan varian?
Tidak mungkin memiliki model pembelajaran mesin dengan bias rendah dan varian rendah. Untuk meminimalkan bias dalam pembelajaran mesin, Anda dapat memilih model pembelajaran yang benar atau menggunakan dataset pelatihan yang tepat.
Apa empat jenis bias dalam pembelajaran mesin?
Empat jenis bias termasuk bias seleksi, outlier, bias pengukuran, bias penarikan, dan banyak lagi.