ChatPaper.aiChatPaper

비전-언어 모델을 구축할 때 중요한 것은 무엇인가?

What matters when building vision-language models?

May 3, 2024
저자: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI

초록

컴퓨터 비전-언어 모델(Vision-Language Models, VLMs)에 대한 관심은 대규모 언어 모델과 비전 트랜스포머의 발전에 힘입어 지속적으로 증가하고 있습니다. 이 주제에 관한 방대한 문헌이 존재함에도 불구하고, 우리는 VLMs 설계와 관련된 중요한 결정들이 종종 충분한 근거 없이 내려지는 것을 관찰했습니다. 이러한 근거 없는 결정들은 어떤 선택이 모델 성능을 향상시키는지 파악하기 어렵게 만들어 해당 분야의 진전을 저해한다고 주장합니다. 이 문제를 해결하기 위해, 우리는 사전 학습된 모델, 아키텍처 선택, 데이터, 그리고 학습 방법에 대해 광범위한 실험을 수행했습니다. 이러한 연구 결과를 종합하여 80억 개의 매개변수를 가진 효율적인 기초 VLM인 Idefics2를 개발했습니다. Idefics2는 다양한 멀티모달 벤치마크에서 동일 규모의 모델 중 최고 성능을 달성하며, 종종 자신의 크기보다 네 배 큰 모델들과도 비슷한 성능을 보입니다. 우리는 이 모델(기본, 지시형, 채팅)과 이를 학습시키기 위해 생성된 데이터셋을 공개합니다.
English
The growing interest in vision-language models (VLMs) has been driven by improvements in large language models and vision transformers. Despite the abundance of literature on this subject, we observe that critical decisions regarding the design of VLMs are often not justified. We argue that these unsupported decisions impede progress in the field by making it difficult to identify which choices improve model performance. To address this issue, we conduct extensive experiments around pre-trained models, architecture choice, data, and training methods. Our consolidation of findings includes the development of Idefics2, an efficient foundational VLM of 8 billion parameters. Idefics2 achieves state-of-the-art performance within its size category across various multimodal benchmarks, and is often on par with models four times its size. We release the model (base, instructed, and chat) along with the datasets created for its training.

Summary

AI-Generated Summary

PDF1043December 15, 2024