Quels sont les éléments essentiels lors de la construction de modèles vision-langage ?
What matters when building vision-language models?
May 3, 2024
Auteurs: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI
Résumé
L'intérêt croissant pour les modèles vision-langage (VLMs) a été stimulé par les progrès des grands modèles de langage et des transformeurs de vision. Malgré l'abondance de littérature sur ce sujet, nous observons que les décisions critiques concernant la conception des VLMs sont souvent peu justifiées. Nous soutenons que ces décisions non étayées entravent les progrès dans le domaine en rendant difficile l'identification des choix qui améliorent les performances des modèles. Pour résoudre ce problème, nous menons des expériences approfondies autour des modèles pré-entraînés, du choix d'architecture, des données et des méthodes d'apprentissage. Notre consolidation des résultats inclut le développement d'Idefics2, un modèle fondationnel VLM efficace de 8 milliards de paramètres. Idefics2 atteint des performances de pointe dans sa catégorie de taille sur divers benchmarks multimodaux, et rivalise souvent avec des modèles quatre fois plus grands. Nous publions le modèle (de base, instruit et conversationnel) ainsi que les ensembles de données créés pour son entraînement.
English
The growing interest in vision-language models (VLMs) has been driven by
improvements in large language models and vision transformers. Despite the
abundance of literature on this subject, we observe that critical decisions
regarding the design of VLMs are often not justified. We argue that these
unsupported decisions impede progress in the field by making it difficult to
identify which choices improve model performance. To address this issue, we
conduct extensive experiments around pre-trained models, architecture choice,
data, and training methods. Our consolidation of findings includes the
development of Idefics2, an efficient foundational VLM of 8 billion parameters.
Idefics2 achieves state-of-the-art performance within its size category across
various multimodal benchmarks, and is often on par with models four times its
size. We release the model (base, instructed, and chat) along with the datasets
created for its training.Summary
AI-Generated Summary