CS 230 - Mẹo và thủ thuật cheatsheet

Mẹo và mẹo nhỏ nhập học tập thâm thúy cheatsheet

Bởi Afshine Amidi và Shervine Amidi

Dịch bởi vì Hoàng Minh Tuấn, Trần Tuấn Anh và Đàm Minh Tiến

Xử lí dữ liệu

Data augmentation Các quy mô học tập thâm thúy thông thường cần thiết thật nhiều tài liệu nhằm rất có thể được đào tạo và huấn luyện đúng cách dán. Việc dùng những nghệ thuật Data augmentation là khá hữu ích để sở hữu thêm thắt nhiều tài liệu rộng lớn kể từ luyện tài liệu hiện tại thời. Những kỹ năng chủ yếu được tóm lược nhập bảng sau đây. Chính xác rộng lớn, với hình hình họa nguồn vào tại đây, đó là những nghệ thuật nhưng mà tất cả chúng ta rất có thể áp dụng:

Bạn đang xem: epochs là gì

Chuẩn hóa batch Đây là một trong những bước của hyperparameter $\gamma,\beta$ chuẩn chỉnh hóa luyện tài liệu $\{x_i\}$. bằng phẳng việc kí hiệu $\mu_B, \sigma^2_B$ là khoảng và phương sai của luyện tài liệu tao mong muốn chuẩn chỉnh hóa, nó được tiến hành như sau:

\[\boxed{x_i\longleftarrow\gamma\frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon}}+\beta}\]

Thường triển khai xong sau một tờ fully connected/nhân chập và trước lớp phi tuyến tính và mục tiêu được cho phép tốc độc học tập cao hơn nữa và cắt giảm sự tùy theo khởi tạo

Huấn luyện mạng neural

Định nghĩa

Epoch Trong văn cảnh đào tạo và huấn luyện quy mô, epoch là một trong những thuật ngữ duy nhất vòng lặp nhưng mà quy mô tiếp tục duyệt toàn cỗ luyện tài liệu đào tạo và huấn luyện nhằm update trọng số của chính nó.

Mini-batch gradient descent Trong quy trình đào tạo và huấn luyện, việc update trọng số thông thường ko dựa vào toàn cỗ luyện đào tạo và huấn luyện và một khi bởi phỏng phức tạp đo lường hoặc một điểm tài liệu nhiễu. Thay nhập cơ, bước update được tiến hành bên trên những lô nhỏ (mini-batch), nhập cơ con số điểm tài liệu nhập một lô (batch) là một trong những siêu thông số (hyperparameter) nhưng mà tất cả chúng ta rất có thể kiểm soát và điều chỉnh.

Hàm rơi rụng mát Để toan lượng phương thức một quy mô chắc chắn tiến hành, hàm rơi rụng non $L$ thông thường được dùng nhằm Review cường độ Output đầu ra thực tiễn $y$ được Dự kiến đúng chuẩn bởi vì Output đầu ra của quy mô là $z$.

Cross-entropy loss Khi vận dụng phân loại nhị phân (binary classification) trong những mạng neural, cross-entropy loss $L(z,y)$ thông thường được dùng và được khái niệm như sau:

\[\boxed{L(z,y)=-\Big[y\log(z)+(1-y)\log(1-z)\Big]}\]

Tìm trọng số tối ưu

Lan truyền ngược Lan truyền ngược (backpropagation) là một trong những công thức nhằm update những trọng số nhập mạng neural bằng phương pháp đo lường Output đầu ra thực tiễn và Output đầu ra ước muốn. Đạo hàm ứng với từng trọng số $w$ được xem bởi vì quy tắc chuỗi.

Sử dụng công thức này, từng trọng số được update theo đòi quy luật:

Xem thêm: shimmer là gì

\[\boxed{w\longleftarrow w-\alpha\frac{\partial L(z,y)}{\partial w}}\]

Cập nhật trọng số Trong một mạng neural, những trọng số được update như sau:

• Cách 1: Lấy hàng loạt tài liệu đào tạo và huấn luyện và tiến hành Viral xuôi (forward propagation) nhằm đo lường rơi rụng mát
• Cách 2: Lan truyền ngược rơi rụng non để sở hữu được phỏng dốc (gradient) của rơi rụng non theo đòi từng trọng số
• Cách 3: Sử dụng phỏng dốc nhằm update trọng số của mạng.

Tinh chỉnh tham lam số

Khởi tạo nên trọng số

Khởi tạo nên Xavier Thay vì như thế khởi tạo nên trọng số một cơ hội tình cờ, khởi tạo nên Xavier mang lại tất cả chúng ta một cơ hội khởi tạo nên trọng số dựa vào một đặc điểm tốt nhất của phong cách xây dựng quy mô.

Transfer learning Huấn luyện một quy mô deep learning yên cầu nhiều tài liệu và cần thiết rộng lớn là thật nhiều thời hạn. Sẽ vô cùng hữu ích nhằm tận dụng tối đa những trọng số và đã được huyến luyện trước bên trên những cỗ tài liệu rất rộng rơi rụng vài ba ngày / tuần nhằm đào tạo và huấn luyện và tận dụng tối đa nó mang lại tình huống của tất cả chúng ta. Tùy nằm trong nhập lượng tài liệu tất cả chúng ta sở hữu nhập tay, đó là những cơ hội không giống nhau nhằm tận dụng tối đa điều này:

Tối ưu hội tụ

Tốc phỏng học Tốc phỏng học tập (learning rate), thông thường được kí hiệu là $\alpha$ hoặc đôi lúc là $\eta$, cho thấy cường độ thay cho thay đổi của những trọng số sau từng đợt được update. Nó rất có thể được cố định và thắt chặt hoặc thay cho thay đổi thích nghi. Phương thức thịnh hành nhất lúc bấy giờ là Adam, đó là công thức thích ứng với vận tốc học tập.

Tốc phỏng học tập mến nghi Để mang lại vận tốc học tập thay cho thay đổi Khi đào tạo và huấn luyện một quy mô rất có thể hạn chế thời hạn đào tạo và huấn luyện và nâng cao biện pháp tối ưu số. Trong Khi tối ưu hóa Adam (Adam optimizer) là nghệ thuật được dùng thịnh hành nhất, tuy nhiên những cách thức không giống cũng rất có thể hữu ích. Chúng được tổng kết nhập bảng bên dưới đây:

Phương thức	Giải thích	Cập nhật của $w$	Cập nhật của $b$
Momentum	• Làm hạn chế dao động • Cải thiện SGD • 2 thông số nhằm tinh ranh chỉnh	$\displaystyle w-\alpha v_{dw}$	$\displaystyle b-\alpha v_{db}$
RMSprop	• Viral Root Mean Square • Thuật toán tăng vận tốc học tập bởi vì trấn áp dao động	$\displaystyle w-\alpha\frac{dw}{\sqrt{s_{dw}}}$	$\displaystyle b\longleftarrow b-\alpha\frac{db}{\sqrt{s_{db}}}$
Adam	• Ước lượng Adaptive Moment • Các cách thức phổ biến • 4 thông số nhằm tinh ranh chỉnh	$\displaystyle w-\alpha\frac{v_{dw}}{\sqrt{s_{dw}}+\epsilon}$	$\displaystyle b\longleftarrow b-\alpha\frac{v_{db}}{\sqrt{s_{db}}+\epsilon}$

Chính quy

Dropout Dropout là một trong những nghệ thuật được dùng trong những mạng neural nhằm rời overfitting bên trên luyện đào tạo và huấn luyện bằng phương pháp vô hiệu những nơ-ron (neural) với phần trăm $p>0$. Nó canh ty quy mô không trở nên dựa vào rất nhiều vào trong 1 luyện tính chất nào là cơ.

Weight regularization Để đảm nói rằng những trọng số không thực sự rộng lớn và quy mô không trở nên overfitting bên trên luyện đào tạo và huấn luyện, những nghệ thuật chủ yếu quy (regularization) thông thường được tiến hành bên trên những trọng số của quy mô. Những kỹ năng chủ yếu được tổng kết nhập bảng bên dưới đây:

Xem thêm: luminous là gì

Dừng sớm Kĩ thuật chủ yếu quy này tiếp tục giới hạn quy trình đào tạo và huấn luyện một Khi rơi rụng non bên trên luyện thẩm toan (validation) đạt cho tới một ngưỡng nào là cơ hoặc chính thức tăng.

Thói quen thuộc tốt

Overfitting batch nhỏ Khi gỡ lỗi một quy mô, khá hữu ích Khi tiến hành những đánh giá nhanh chóng nhằm coi liệu sở hữu ngẫu nhiên yếu tố rộng lớn nào là với loài kiến trúc của quy mô cơ ko. điều đặc biệt, nhằm đảm nói rằng quy mô rất có thể được đào tạo và huấn luyện đúng cách dán, một batch nhỏ (mini-batch) được truyền nhập bên phía trong mạng nhằm coi liệu nó rất có thể overfit ko. Nếu ko, điều này tức là quy mô vượt lên trước phức tạp hoặc ko đầy đủ phức tạp nhằm thậm chí còn overfit bên trên batch nhỏ (mini-batch), chứ chớ nói đến việc một luyện đào tạo và huấn luyện sở hữu độ cao thấp thông thường.

Kiểm tra gradien Kiểm tra gradien là một trong những công thức được dùng nhập quy trình tiến hành Viral ngược của mạng neural. Nó đối chiếu độ quý hiếm của gradien phân tách (analytical gradient) với gradien số (numerical gradient) bên trên những điểm tiếp tục mang lại và nhập vai trò đánh giá phỏng đúng chuẩn.

Loại	Gradien số	Gradien phân tích
Công thức	$\displaystyle\frac{df}{dx}(x) \approx \frac{f(x+h) - f(x-h)}{2h}$	$\displaystyle\frac{df}{dx}(x) = f'(x)$
Bình luận	• Đắt, Mất non nên được xem nhì đợt cho từng chiều • Được dùng nhằm xác minh tính đúng chuẩn của việc tổ chức thực hiện phân tích • Đánh thay đổi trong những công việc lựa chọn h không thực sự nhỏ (mất ổn định toan số) cũng không thực sự rộng lớn (xấp xỉ phỏng dốc kém)	• Kết trái ngược 'Chính xác' • Tính toán trực tiếp • Được dùng nhập quy trình tổ chức thực hiện cuối cùng