하는 일/ai

[Medium 아티클] Vision Transformers, Explained

yeznable 2024. 12. 26. 13:22
728x90

Medium에서 보내준 메일에서 좋은 아티클이 있어 남겨둔다.

 

Vision Transformers, Explained

A Full Walk-Through of Vision Transformers in PyTorch

towardsdatascience.com

 

AI를 찍먹해보고 있던 때 가장 핫했던 논문은  Attention is All You Need(2017) 였다.

그 이후로는 논문을 직접 찾아보거나 하진 않고 메일로 추천이 오는 아티클만 가끔 읽어보고는 한다.

 

위 아티클은 An Image is Worth 16x16 Words(2021) 이라는 논문을 소개하고 직접 구현한 코드까지 담아놓은 글이다.

AI를 공부할 당시 이렇게 구현까지 담아둔 글이 충분히 많았으면 했던 기억이 있어 그때 버릇대로 "이건 좋은 글이다!" 하고 포스팅에 남기고 있다.

 

Attention is All You Need(2017) 논문은 인코더와 디코더를 활용한 트랜스포머라는 모듈을 적용해 NLP 성능을 크게 높였다.

아티클에서 소개한  An Image is Worth 16x16 Words(2021) 논문은 이 때와 비슷하게 트랜스포머를 활용해 이미지 분석 성능을 크게 높인 논문이라고 한다.

 

Vision 분야에 쓰이는 트랜스포머를 ViT라고 부르는 걸 이 아티클을 통해 알았다.

기존의 트랜스포머와 다른 점은 인코더만 활용하고 디코더를 활용하지 않는 모양이다.

모든 ViT에 디코더가 없는 건지 이 논문에서 사용한 모듈의 특징인지는 모르겠다.

728x90
댓글수0