VILA : Sur le pré-entraînement des modèles de langage visuel
VILA: On Pre-training for Visual Language Models
December 12, 2023
Auteurs: Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
cs.AI
Résumé
Les modèles de langage visuel (VLMs) ont progressé rapidement grâce aux récents succès des grands modèles de langage (LLMs). Des efforts croissants ont été consacrés à l'ajustement par instruction visuelle pour étendre les LLMs avec des entrées visuelles, mais une étude approfondie du processus de pré-entraînement en langage visuel, où le modèle apprend à effectuer une modélisation conjointe des deux modalités, fait défaut. Dans ce travail, nous examinons les options de conception pour le pré-entraînement des VLMs en transformant progressivement un LLM en VLM grâce à des comparaisons contrôlées étape par étape. Nous présentons trois principales conclusions : (1) le gel des LLMs pendant le pré-entraînement peut permettre des performances décentes en zero-shot, mais limite la capacité d'apprentissage en contexte, ce qui nécessite de dégeler le LLM ; (2) les données de pré-entraînement entrelacées sont bénéfiques, tandis que les paires image-texte seules ne sont pas optimales ; (3) le réassemblage des données d'instruction textuelles avec les données image-texte pendant l'ajustement fin par instruction non seulement remédie à la dégradation des tâches textuelles, mais améliore également la précision des tâches VLM. Avec une recette de pré-entraînement améliorée, nous construisons VILA, une famille de modèles de langage visuel qui surpasse systématiquement les modèles de pointe, par exemple LLaVA-1.5, sur les principaux benchmarks sans fioritures. Le pré-entraînement multimodal aide également à révéler des propriétés attrayantes de VILA, notamment le raisonnement multi-image, un apprentissage en contexte amélioré et une meilleure connaissance du monde.
English
Visual language models (VLMs) rapidly progressed with the recent success of
large language models. There have been growing efforts on visual instruction
tuning to extend the LLM with visual inputs, but lacks an in-depth study of the
visual language pre-training process, where the model learns to perform joint
modeling on both modalities. In this work, we examine the design options for
VLM pre-training by augmenting LLM towards VLM through step-by-step
controllable comparisons. We introduce three main findings: (1) freezing LLMs
during pre-training can achieve decent zero-shot performance, but lack
in-context learning capability, which requires unfreezing the LLM; (2)
interleaved pre-training data is beneficial whereas image-text pairs alone are
not optimal; (3) re-blending text-only instruction data to image-text data
during instruction fine-tuning not only remedies the degradation of text-only
tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe
we build VILA, a Visual Language model family that consistently outperforms the
state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells
and whistles. Multi-modal pre-training also helps unveil appealing properties
of VILA, including multi-image reasoning, enhanced in-context learning, and
better world knowledge.