비전-언어 모델링 입문An Introduction to Vision-Language Modeling
대규모 언어 모델(LLMs)의 최근 인기에 이어, 이를 시각 영역으로 확장하려는 여러 시도가 이루어지고 있습니다. 낯선 환경을 안내해 줄 수 있는 시각적 어시스턴트부터 고수준의 텍스트 설명만으로 이미지를 생성하는 생성 모델에 이르기까지, 시각-언어 모델(VLM) 응용 프로그램은 기술과의 관계에 큰 영향을 미칠 것입니다. 그러나 이러한 모델의 신뢰성을 향상시키기 위해서는 해결해야 할 많은 과제들이 있습니다. 언어는 이산적(discrete)인 반면, 시각은 훨씬 더 높은 차원의 공간에서 진화하며, 개념이 항상 쉽게 이산화될 수는 없습니다. 시각을 언어로 매핑하는 메커니즘을 더 잘 이해하기 위해, 우리는 이 분야에 진입하고자 하는 모든 이들에게 도움이 되길 바라며 VLM에 대한 이 소개를 제시합니다. 먼저, VLM이 무엇인지, 어떻게 작동하는지, 그리고 어떻게 훈련시키는지 소개합니다. 그런 다음, VLM을 평가하는 접근 방식을 제시하고 논의합니다. 이 작업은 주로 이미지를 언어로 매핑하는 데 초점을 맞추고 있지만, VLM을 비디오로 확장하는 것에 대해서도 논의합니다.