Cosa conta quando si costruiscono modelli visione-linguaggio?
What matters when building vision-language models?
May 3, 2024
Autori: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI
Abstract
Il crescente interesse per i modelli visione-linguaggio (VLMs) è stato alimentato dai progressi nei grandi modelli linguistici e nei vision transformer. Nonostante l'abbondanza di letteratura su questo argomento, osserviamo che le decisioni critiche riguardanti la progettazione dei VLMs spesso non sono giustificate. Sosteniamo che queste decisioni non supportate ostacolino i progressi nel campo, rendendo difficile identificare quali scelte migliorino le prestazioni del modello. Per affrontare questo problema, conduciamo esperimenti approfonditi sui modelli pre-addestrati, sulla scelta dell'architettura, sui dati e sui metodi di addestramento. La nostra sintesi dei risultati include lo sviluppo di Idefics2, un efficiente VLM di base da 8 miliardi di parametri. Idefics2 raggiunge prestazioni all'avanguardia nella sua categoria di dimensioni su vari benchmark multimodali, spesso alla pari con modelli quattro volte più grandi. Rilasciamo il modello (base, istruito e chat) insieme ai dataset creati per il suo addestramento.
English
The growing interest in vision-language models (VLMs) has been driven by
improvements in large language models and vision transformers. Despite the
abundance of literature on this subject, we observe that critical decisions
regarding the design of VLMs are often not justified. We argue that these
unsupported decisions impede progress in the field by making it difficult to
identify which choices improve model performance. To address this issue, we
conduct extensive experiments around pre-trained models, architecture choice,
data, and training methods. Our consolidation of findings includes the
development of Idefics2, an efficient foundational VLM of 8 billion parameters.
Idefics2 achieves state-of-the-art performance within its size category across
various multimodal benchmarks, and is often on par with models four times its
size. We release the model (base, instructed, and chat) along with the datasets
created for its training.