adamw

adamw

AdamW — Dokumentasi PyTorch 2.1 AdamW adalah algoritma yang ditingkatkan dari Adam yang menggunakan regularisasi L2 untuk memperbaiki masalah weight decay dan menghasilkan model yang generalisasi lebih baik. Ini adalah metode optimisasi stokastik yang telah digunakan dalam berbagai tugas seperti klasifikasi, jawaban pertanyaan, klasifikasi gambar, dan inferensi bahasa alami. AdamW adalah optimizer yang menggunakan estimasi adaptif momentum orde pertama dan kedua dengan weight decay dan EMA. Dalam implementasi kodenya, weight decay diimplementasikan sebagai `grad = grad.add(param, alpha=weight_decay)` sedangkan dalam implementasi AdamW, weight decay diimplementasikan sebagai `param.mul_(1 - lr * weight_decay)`. Jadi pada setiap iterasi, dalam Adam, gradien diperbarui dengan parameter yang diestimasi dari iterasi sebelumnya diboboti dengan weight decay. Sedangkan pada AdamW, weight decay dipisahkan dari pembaruan gradien yang memperbaiki konvergensinya. Dalam makalah ini, kita fokus pada memahami bagaimana pembaruan AdamW berbeda dari Adam '2' dari sudut pandang optimisasi. Pertama, kita mengungkapkan hubungan mengejutkan antara pembaruan AdamW dan proximal updates (Parikh dan Boyd, 2014). Khususnya, kami menunjukkan bahwa AdamW adalah perkiraan dari proximal updates dan mengkonfirmasi kesamaan tersebut dengan studi empiris. AdamW tersedia di API dokumentasi Keras. Proses belajar AdamW, regularisasi L2 dan perbandingannya dengan SGD pada link ini. Implementasi AdamW, hasil eksperimen dan keuntungannya dan kerugiannya dalam machine learning dapat ditemukan di sini. AdamW juga telah diintegrasikan ke dalam beberapa algoritma lain seperti SparseAdam, Adafactor optimizer, Adamax, ASGD, LBFGS, dan NAdam. Namun, AdamW memiliki beberapa keunggulan, yakni: mengatur gradien adaptif dari berbagai orde; optimal di berbagai masalah optimisasi machine learning; gradient yang stabil sehingga lebih cepat dalam konvergensi. Maka, AdamW adalah optimizer yang sangat efektif untuk digunakan dalam berbagai aplikasi machine learning, dan akan terus berkembang dengan penelitian lebih lanjut di masa depan.