Allineamento della Rappresentazione Visiva per Modelli Linguistici Multimodali di Grande Scala
Visual Representation Alignment for Multimodal Large Language Models
September 9, 2025
Autori: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) addestrati con il tuning basato su istruzioni visive hanno ottenuto prestazioni solide in una vasta gamma di compiti, ma rimangono limitati in attività centrate sulla visione, come il conteggio di oggetti o il ragionamento spaziale. Attribuiamo questo divario al paradigma di supervisione basato esclusivamente sul testo, che fornisce solo una guida indiretta per il percorso visivo e spesso porta gli MLLM a scartare dettagli visivi di fine granularità durante l'addestramento. In questo articolo, presentiamo VIsual Representation ALignment (VIRAL), una strategia di regolarizzazione semplice ma efficace che allinea le rappresentazioni visive interne degli MLLM con quelle di modelli di fondazione visiva (VFM) pre-addestrati. Applicando esplicitamente questo allineamento, VIRAL consente al modello non solo di conservare dettagli visivi critici dall'encoder visivo di input, ma anche di integrare ulteriori conoscenze visive dai VFM, migliorando così la sua capacità di ragionare su input visivi complessi. I nostri esperimenti dimostrano miglioramenti consistenti in tutti i compiti su benchmark multimodali ampiamente adottati. Inoltre, conduciamo studi di ablazione completi per validare le scelte progettuali chiave alla base del nostro framework. Crediamo che questa semplice scoperta apra una direzione importante per l'integrazione efficace delle informazioni visive nell'addestramento degli MLLM.
English
Multimodal large language models (MLLMs) trained with visual instruction
tuning have achieved strong performance across diverse tasks, yet they remain
limited in vision-centric tasks such as object counting or spatial reasoning.
We attribute this gap to the prevailing text-only supervision paradigm, which
provides only indirect guidance for the visual pathway and often leads MLLMs to
discard fine-grained visual details during training. In this paper, we present
VIsual Representation ALignment (VIRAL), a simple yet effective regularization
strategy that aligns the internal visual representations of MLLMs with those of
pre-trained vision foundation models (VFMs). By explicitly enforcing this
alignment, VIRAL enables the model not only to retain critical visual details
from the input vision encoder but also to complement additional visual
knowledge from VFMs, thereby enhancing its ability to reason over complex
visual inputs. Our experiments demonstrate consistent improvements across all
tasks on widely adopted multimodal benchmarks. Furthermore, we conduct
comprehensive ablation studies to validate the key design choices underlying
our framework. We believe this simple finding opens up an important direction
for the effective integration of visual information in training MLLMs.