VILA : Sur le pré-entraînement des modèles de langage visuel

papers.abstract

Les modèles de langage visuel (VLMs) ont progressé rapidement grâce aux récents succès des grands modèles de langage (LLMs). Des efforts croissants ont été consacrés à l'ajustement par instruction visuelle pour étendre les LLMs avec des entrées visuelles, mais une étude approfondie du processus de pré-entraînement en langage visuel, où le modèle apprend à effectuer une modélisation conjointe des deux modalités, fait défaut. Dans ce travail, nous examinons les options de conception pour le pré-entraînement des VLMs en transformant progressivement un LLM en VLM grâce à des comparaisons contrôlées étape par étape. Nous présentons trois principales conclusions : (1) le gel des LLMs pendant le pré-entraînement peut permettre des performances décentes en zero-shot, mais limite la capacité d'apprentissage en contexte, ce qui nécessite de dégeler le LLM ; (2) les données de pré-entraînement entrelacées sont bénéfiques, tandis que les paires image-texte seules ne sont pas optimales ; (3) le réassemblage des données d'instruction textuelles avec les données image-texte pendant l'ajustement fin par instruction non seulement remédie à la dégradation des tâches textuelles, mais améliore également la précision des tâches VLM. Avec une recette de pré-entraînement améliorée, nous construisons VILA, une famille de modèles de langage visuel qui surpasse systématiquement les modèles de pointe, par exemple LLaVA-1.5, sur les principaux benchmarks sans fioritures. Le pré-entraînement multimodal aide également à révéler des propriétés attrayantes de VILA, notamment le raisonnement multi-image, un apprentissage en contexte amélioré et une meilleure connaissance du monde.

English

Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-training process, where the model learns to perform joint modeling on both modalities. In this work, we examine the design options for VLM pre-training by augmenting LLM towards VLM through step-by-step controllable comparisons. We introduce three main findings: (1) freezing LLMs during pre-training can achieve decent zero-shot performance, but lack in-context learning capability, which requires unfreezing the LLM; (2) interleaved pre-training data is beneficial whereas image-text pairs alone are not optimal; (3) re-blending text-only instruction data to image-text data during instruction fine-tuning not only remedies the degradation of text-only tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe we build VILA, a Visual Language model family that consistently outperforms the state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells and whistles. Multi-modal pre-training also helps unveil appealing properties of VILA, including multi-image reasoning, enhanced in-context learning, and better world knowledge.

VILA : Sur le pré-entraînement des modèles de langage visuel

VILA: On Pre-training for Visual Language Models

papers.abstract

Support