Alignement des représentations visuelles pour les modèles de langage multimodaux de grande échelle

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLMs) entraînés par réglage d'instructions visuelles ont obtenu des performances solides sur diverses tâches, mais ils restent limités dans les tâches centrées sur la vision, telles que le comptage d'objets ou le raisonnement spatial. Nous attribuons cet écart au paradigme de supervision textuelle dominant, qui ne fournit qu'une guidance indirecte pour le chemin visuel et conduit souvent les MLLMs à ignorer les détails visuels fins pendant l'entraînement. Dans cet article, nous présentons VIsual Representation ALignment (VIRAL), une stratégie de régularisation simple mais efficace qui aligne les représentations visuelles internes des MLLMs avec celles des modèles de fondation visuelle pré-entraînés (VFMs). En imposant explicitement cet alignement, VIRAL permet au modèle non seulement de conserver les détails visuels critiques provenant de l'encodeur visuel d'entrée, mais aussi de compléter ces informations avec des connaissances visuelles supplémentaires des VFMs, améliorant ainsi sa capacité à raisonner sur des entrées visuelles complexes. Nos expériences montrent des améliorations constantes sur toutes les tâches des benchmarks multimodaux largement adoptés. De plus, nous menons des études d'ablation approfondies pour valider les choix de conception clés de notre cadre. Nous pensons que cette découverte simple ouvre une voie importante pour l'intégration efficace de l'information visuelle dans l'entraînement des MLLMs.

English

Multimodal large language models (MLLMs) trained with visual instruction tuning have achieved strong performance across diverse tasks, yet they remain limited in vision-centric tasks such as object counting or spatial reasoning. We attribute this gap to the prevailing text-only supervision paradigm, which provides only indirect guidance for the visual pathway and often leads MLLMs to discard fine-grained visual details during training. In this paper, we present VIsual Representation ALignment (VIRAL), a simple yet effective regularization strategy that aligns the internal visual representations of MLLMs with those of pre-trained vision foundation models (VFMs). By explicitly enforcing this alignment, VIRAL enables the model not only to retain critical visual details from the input vision encoder but also to complement additional visual knowledge from VFMs, thereby enhancing its ability to reason over complex visual inputs. Our experiments demonstrate consistent improvements across all tasks on widely adopted multimodal benchmarks. Furthermore, we conduct comprehensive ablation studies to validate the key design choices underlying our framework. We believe this simple finding opens up an important direction for the effective integration of visual information in training MLLMs.

Alignement des représentations visuelles pour les modèles de langage multimodaux de grande échelle

Visual Representation Alignment for Multimodal Large Language Models

papers.abstract

Support