Vấn đề vanishing gradient và các phương pháp xử lý khi lan truyền ngược trong huấn luyện mô hình học sâu

Bài viết đưa ra các biện pháp khắc phục vấn đề suy giảm đạo hàm (vanishing gradient) trong mạng nơron Multi Layer Perceptrons (MLP) khi thực hiện huấn luyện mô hình quá sâu (có nhiều hidden layer). Có sáu phương pháp khác nhau tác động vào model, chiến thuật train,... để giúp giảm thiểu vanishing gradients được giới thiệu trong bài viết trên bộ dữ liệu FashionMNIST.