๐ ์ค๋ ํ ์ผ
- ๊ฐ์ ์๊ฐ ๋ฐ ํด์ฆ
- [DL Basic] 7, 8๊ฐ ์ค์ต
- [DL Basic] RNN ํด์ฆ
- ๊ธฐ๋ณธ ๊ณผ์ ์๋ฃ
- ๋ฉํ ๋ง (๋ ผ๋ฌธ ์คํฐ๋)
- ์ฝ๋ฉํ ์คํธ ๋ฌธ์ ํ๊ธฐ
๐ฅ ํผ์ด์ธ์ ์์ฝ
ํค์๋ ๊ณต์
- attention
- transformer์ ์ธ ๊ฐ์ง multi-head attention
- LSTM์ ์ฅ์
- Vanilla RNN
- backward pass์์ weight matrix W๊ฐ ๊ณ์ํด์ ๊ณฑํด์ ธ์ vanishing & exploding gradients ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค.
- gradient clipping๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ ํ ์ ์์ผ๋, ํ๊ณ๊ฐ ์๋ค.
- LSTM
- cell state๋ฅผ ๊ณ์ฐํ๋ ์๊ณผ hidden state๋ฅผ ๊ณ์ฐํ๋ ์ ๋ชจ๋ element-wise multiplication์ ์ฌ์ฉํ๋ค.
- cell state์ backprop์ด ๊ทธ์
(upstream gradient) * (forget gate)
๊ฐ ๋๋ค.- ์ด๋ ๊ฒ ๊ณฑํด์ง๋ forget gate๋ ๋งค step ๋ง๋ค ๋ฐ๋๊ธฐ ๋๋ฌธ์, ๋์ผํ weight matrix๊ฐ ๊ณฑํด์ ธ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ Vanilla RNN์ ๋นํด ๋ซ๋ค.
- ๋ํ, forget gate๋
Sigmoid
๊ฐ์ผ๋ก element-wise multiplication์ด 0 or 1 ๊ฐ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ณฑํ์ ๋ ๋ ์ข์ ์์น์ ํน์ฑ์ ๋ณด์ผ ์ ์๋ค.
tanh
๋ฅผ ๋งค step๋ง๋ค ๊ฑฐ์น๋ ๊ฒ์ด ์๋๋ผ, ๋จ ํ ๋ฒ๋ง ๊ฑฐ์น๋ฉด ๋๋ค.- Vanilla RNN์ backward pass์์๋ ๋งค step์์ gradient๊ฐ
tanh
๋ฅผ ๊ฑฐ์ณ์ผ ํ๋ค.
- Vanilla RNN์ backward pass์์๋ ๋งค step์์ gradient๊ฐ
gradient๊ฐ ๋ชจ๋ธ์ ๋์ธ loss์์ cell state $c_0$๊น์ง ํ๋ฌ๊ฐ๋ฉด์ ๋ฐฉํด๋ฅผ ๋ ๋ฐ๋๋ค.
โ ResNet์ skip connection == LSTM์ element-wise multiplicationbackprop through cell state๋ gradient๋ฅผ ์ํ ๊ณ ์๋๋ก
- Vanilla RNN
- (๊ฐ์ ์ถ์ฒ) AutoEncoder์ ๋ชจ๋ ๊ฒ
์ฝ๋ฉํ ์คํธ ์คํฐ๋
- [BOJ] ์์ญ์ด ๋งค๋ฌ๊ธฐ
๐ซ ๋ฉํ ๋ง ์์ฝ
์์ ๊ด๋ จ
- MHA์ ๊ฐ attention head๊ฐ ๊ฐ๊ธฐ ๋ค๋ฅธ ์์์ ๋ํด attention์ ๊ฐ๋ ์๋ฆฌ๊ฐ ๋ฌด์์ธ์ง ๊ถ๊ธํ๋ค.
- ๋ฐ๋ก ์๋ฆฌ๊ฐ ์๋ค๊ธฐ๋ณด๋ค๋, ์ค์ ๋ก ํด๋ณด๋๊น ์ ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
- AI ๋ถ์ผ์์๋ ์ด๋ฐ ๋๋์ธ ๊ฒ ์๊ทผํ ๋ง๋ค.
- Positional encoding
- ์ด๊ฒ ๋ํ ํฐ ์๋ฏธ๊ฐ ์๋ค. ๊ทธ๋ฅ ์ฌ๋ฌ position์ ๋ค๋ฅด๊ฒ encoding ํ๊ธฐ ์ํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
- ์ด๊ฒ ์์ฒด๋ ํ์ต์ด ๊ฐ๋ฅํ๋ค. (trainable)
- transformer๋ input ๊ธธ์ด๊ฐ ๊ณ ์ ๋ ๊ฐ์ด๋ค. ๋์ ์์ฒญ ํฌ๋ค.
- ResNet์์ skip connection์ผ๋ก residual๋ง ํ์ต์ํค๋ ๊ฒ์ ์๋ฆฌ
- ์ฐ๊ตฌ์๋ค์ด โ์ ๋ ๊ฒ ๊ฐ์์โ ์๋ํด ๋ณธ ๊ฒ์ด ์ค์ ๋ก ์ ๋ ์ผ์ด์ค์ด๋ค.
- ํ์ ๋ ผ๋ฌธ๋ค์์ ์ ์ ๋๋์ง์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ด๋ค์ง๊ธฐ๋ ํ๋ค.
- ResNet ๊ณ์ด์ ๋ชจ๋ธ์ ๋ฒ์ฉ์ฑ์ด ์ข๋ค.
- ResNet, ResNext, Res2Net, ResNest
- MixUp, CutMix ๋ฑ์ data augmentation ๋ฐฉ๋ฒ๋ก
- ๊ฐ ๋ฐฉ๋ฒ์ด ํจ๊ณผ์ ์ธ ๋ฌธ์ ์ ์ ํ ์ ๋๋ง ์๊ณ ์์ด๋ ์ถฉ๋ถํ๋ค.
- SGD์ Adam
- SGD - ์ด๊ธฐ
lr
๊ฐ์ ๋๋ฌด ๋ฏผ๊ฐํ๋ค.- ์ต์ ์
lr
๊ฐ์ ์ฐพ๋ ๊ฒ์ด ๊ด๊ฑด์ด๋ค. - local minimum์ ๋๋ฌํ๋๋ผ๋ flatter ํ ๊ฒ์ ๋๋ฌํ๊ฒ ๋๋ค. train๊ณผ dest ์ฐจ์ด๊ฐ ์ ์ผ๋ฏ๋ก test accr๊ฐ ๋ ์ข๋ค.
- ์ต์ ์
- Adam -
lr
์ ๋ ์ฌ์ธํ๊ฒ ์ก์๋ ์ฌ๋งํผ good- adaptive โ ์๋ ด์๋ faster
- ํ์ง๋ง ์ฌ์ ํ ์ต์ ์
lr
๊ฐ์ ์ฐพ๋ ๊ฒ์ ์ค์ํ๋ค. (hyperparameter tuning)
- ๋ ๋ฐฉ๋ฒ๋ง๋ค ์ ๋๋ task๊ฐ ๋ค๋ฅด๋ค. ์ค์ ๋ก๋ ์ฌ๋ฌ
lr
๊ณผ ํจ๊ป Adam, SGD ๋ฑ์ ๋ฐฉ๋ฒ์ ๋ชจ๋ ์กฐํฉํด์ ํด๋ณธ๋ค. - ์ค์ผ์ค๋ฌ๋ ๋งค์ฐ ์ค์ํ๋ค.
- ์ด๋ฐ์๋
lr
์ ํฌ๊ฒ ์ฃผ์ด์ผ local minimum์ ๋น ์ง ์ํ์ ์ค์ผ ์ ์๋ค.
- ์ด๋ฐ์๋
- ๊ฒฝํ์ ์ผ๋ก ํด์ผ ํ๋ค. (์ด๋ฏธ ์ ์๋ ค์ง ์ ๋ณด๋ค์ ์ด์ฉํ ์ค ์์์ผ ํ๋ค.)
- SGD - ์ด๊ธฐ
์ฌํ ๊ณผ์ ๊ด๋ จ
transfer learning ์ฌํ ๊ณผ์ ์์ ์ด๋ฏธ์ง ์ ์ ์ด ๊ฒฝ์ฐ์ ์ ์ด ๊ฒฝ์ฐ์ ์ฐจ์ด๊ฐ ์ปธ๋๊ฐ?
โ ์ฐจ์ด๊ฐ ํฌ์ง ์์๋ค. (transfer learning์ ํจ๊ณผ๊ฐ ํฌ์ง ์์๋ค.)
- transfer learning์ ํจ๊ณผ๊ฐ ํฌ์ง ์์๋ ์ด์
- ๊ธฐ์กด ํ์ต๋ ๋ฐ์ดํฐ(source data)์ ์ถ๊ฐ ๋ฐ์ดํฐ(target data)์ domain์ด ๋๋ฌด ๋ฌ๋๋ค.
- target data๊ฐ ์ถฉ๋ถํ ๋ง์๋ค.
- transfer learning์ด ํจ๊ณผ์ ์ด๋ ค๋ฉด?
- src data์ target data์ domain์ด ๋น์ทํด์ผ ํ๋ค.
- target data๊ฐ ์ ์์๋ก ํจ๊ณผ์ ์ด๋ค.
- transfer learning์ ๋ํ ์ด์ผ๊ธฐ
- weight์ ๊ด์ ์์ ๋ณด๋ฉด, training์ ๋ง์ด ์ํค๋ฉด ์ํฌ์๋ก ์๋ ์ง์์ ์์ด๋ฒ๋ฆฌ๊ฒ ๋๋ค.
- ์ธ์ fine-tuning์ ๋ฉ์ถฐ์ผ ํ๋์ง, freezing์ด ์ค์ํ๋ค.
- ํ์
์์๋ ๋ชจ๋ธ์ scratch๋ถํฐ ๋ง๋ค๊ธฐ๋ณด๋ค๋, ์คํ๋ ค transfer learning์ ๋ง์ด ์ฌ์ฉํ๋ค.
- ๊ฒฝํ์ ์ผ๋ก ์ ๊ทผํ๋ ๊ฒ์ด ์ข์ ๊ฒ ๊ฐ๋ค.
- hyperparameter tuning ์, ์์ง์ Ray์ ๊ฐ์ ํด๋ณด๋ค๋ ์ฌ๋์ด ๋ ๋์ ๊ฒ ๊ฐ๋ค.
๐พ ์ผ์ผ ํ๊ณ
์ ์ ์ด ์๋ ํ๋ฃจ์๋ค. ๊ฐ์์์๋ ์ ๋ณด๊ฐ ์์์ง๊ณ , ํผ์ด์ธ์ ์์๋ ์ ๋ณด๊ฐ ์์์ง๊ณ , ๋ฉํ ๋ง์์๋ ์ ๋ณด๊ฐ ์์์ง๋ ์ ๊ธฐํ ํ๋ฃจ์๊ธฐ๋ ํ๋ค. ํนํ, ์ค์ต์ ํ๋ฉด์ ์ ๋ง ๋ง์ด ๋ฐฐ์ด ๊ฒ ๊ฐ๋ค. ์์ง์ dimension ๊ณ์ฐ์ด ์ต์ํ์ง ์์ ํ๋ฅ๋์ง๋ง ์ฐจ๊ทผํ ํ ์ค์ฉ ๋ฏ์ด๋ณด๋ ค ํ๋ค. ๊ทธ๋ฐ๋ฐ ์๊ฐ์ด ์์๊น..? ๐ฅฒ
๐ ๋ด์ผ ํ ์ผ
- ๊ฐ์ ์๊ฐ
- [Data Viz] 5-1, 2, 3๊ฐ
- ์คํผ์ค์์