Alignement des représentations visuelles pour les modèles de langage multimodaux de grande échelle
Visual Representation Alignment for Multimodal Large Language Models
September 9, 2025
papers.authors: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) entraînés par réglage d'instructions visuelles ont obtenu des performances solides sur diverses tâches, mais ils restent limités dans les tâches centrées sur la vision, telles que le comptage d'objets ou le raisonnement spatial. Nous attribuons cet écart au paradigme de supervision textuelle dominant, qui ne fournit qu'une guidance indirecte pour le chemin visuel et conduit souvent les MLLMs à ignorer les détails visuels fins pendant l'entraînement. Dans cet article, nous présentons VIsual Representation ALignment (VIRAL), une stratégie de régularisation simple mais efficace qui aligne les représentations visuelles internes des MLLMs avec celles des modèles de fondation visuelle pré-entraînés (VFMs). En imposant explicitement cet alignement, VIRAL permet au modèle non seulement de conserver les détails visuels critiques provenant de l'encodeur visuel d'entrée, mais aussi de compléter ces informations avec des connaissances visuelles supplémentaires des VFMs, améliorant ainsi sa capacité à raisonner sur des entrées visuelles complexes. Nos expériences montrent des améliorations constantes sur toutes les tâches des benchmarks multimodaux largement adoptés. De plus, nous menons des études d'ablation approfondies pour valider les choix de conception clés de notre cadre. Nous pensons que cette découverte simple ouvre une voie importante pour l'intégration efficace de l'information visuelle dans l'entraînement des MLLMs.
English
Multimodal large language models (MLLMs) trained with visual instruction
tuning have achieved strong performance across diverse tasks, yet they remain
limited in vision-centric tasks such as object counting or spatial reasoning.
We attribute this gap to the prevailing text-only supervision paradigm, which
provides only indirect guidance for the visual pathway and often leads MLLMs to
discard fine-grained visual details during training. In this paper, we present
VIsual Representation ALignment (VIRAL), a simple yet effective regularization
strategy that aligns the internal visual representations of MLLMs with those of
pre-trained vision foundation models (VFMs). By explicitly enforcing this
alignment, VIRAL enables the model not only to retain critical visual details
from the input vision encoder but also to complement additional visual
knowledge from VFMs, thereby enhancing its ability to reason over complex
visual inputs. Our experiments demonstrate consistent improvements across all
tasks on widely adopted multimodal benchmarks. Furthermore, we conduct
comprehensive ablation studies to validate the key design choices underlying
our framework. We believe this simple finding opens up an important direction
for the effective integration of visual information in training MLLMs.