Wat is belangrijk bij het bouwen van visueel-taalkundige modellen?
What matters when building vision-language models?
May 3, 2024
Auteurs: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI
Samenvatting
De groeiende interesse in vision-language models (VLMs) wordt aangedreven door
verbeteringen in grote taalmodellen en vision transformers. Ondanks de overvloed
aan literatuur over dit onderwerp, merken we op dat cruciale beslissingen
met betrekking tot het ontwerp van VLMs vaak niet worden onderbouwd. Wij stellen
dat deze ongefundeerde beslissingen de vooruitgang in het veld belemmeren door
het moeilijk te maken om te identificeren welke keuzes de modelprestaties verbeteren.
Om dit probleem aan te pakken, voeren we uitgebreide experimenten uit rond
vooraf getrainde modellen, architectuurkeuze, data en trainingsmethoden. Onze
consolidatie van bevindingen omvat de ontwikkeling van Idefics2, een efficiënt
foundation VLM met 8 miljard parameters. Idefics2 behaalt state-of-the-art
prestaties binnen zijn groottecategorie op verschillende multimodale benchmarks,
en is vaak vergelijkbaar met modellen die vier keer zo groot zijn. We geven het
model vrij (basis, geïnstrueerd en chat) samen met de datasets die zijn gemaakt
voor de training ervan.
English
The growing interest in vision-language models (VLMs) has been driven by
improvements in large language models and vision transformers. Despite the
abundance of literature on this subject, we observe that critical decisions
regarding the design of VLMs are often not justified. We argue that these
unsupported decisions impede progress in the field by making it difficult to
identify which choices improve model performance. To address this issue, we
conduct extensive experiments around pre-trained models, architecture choice,
data, and training methods. Our consolidation of findings includes the
development of Idefics2, an efficient foundational VLM of 8 billion parameters.
Idefics2 achieves state-of-the-art performance within its size category across
various multimodal benchmarks, and is often on par with models four times its
size. We release the model (base, instructed, and chat) along with the datasets
created for its training.