Allineamento della Rappresentazione Visiva per Modelli Linguistici Multimodali di Grande Scala

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) addestrati con il tuning basato su istruzioni visive hanno ottenuto prestazioni solide in una vasta gamma di compiti, ma rimangono limitati in attività centrate sulla visione, come il conteggio di oggetti o il ragionamento spaziale. Attribuiamo questo divario al paradigma di supervisione basato esclusivamente sul testo, che fornisce solo una guida indiretta per il percorso visivo e spesso porta gli MLLM a scartare dettagli visivi di fine granularità durante l'addestramento. In questo articolo, presentiamo VIsual Representation ALignment (VIRAL), una strategia di regolarizzazione semplice ma efficace che allinea le rappresentazioni visive interne degli MLLM con quelle di modelli di fondazione visiva (VFM) pre-addestrati. Applicando esplicitamente questo allineamento, VIRAL consente al modello non solo di conservare dettagli visivi critici dall'encoder visivo di input, ma anche di integrare ulteriori conoscenze visive dai VFM, migliorando così la sua capacità di ragionare su input visivi complessi. I nostri esperimenti dimostrano miglioramenti consistenti in tutti i compiti su benchmark multimodali ampiamente adottati. Inoltre, conduciamo studi di ablazione completi per validare le scelte progettuali chiave alla base del nostro framework. Crediamo che questa semplice scoperta apra una direzione importante per l'integrazione efficace delle informazioni visive nell'addestramento degli MLLM.

English

Multimodal large language models (MLLMs) trained with visual instruction tuning have achieved strong performance across diverse tasks, yet they remain limited in vision-centric tasks such as object counting or spatial reasoning. We attribute this gap to the prevailing text-only supervision paradigm, which provides only indirect guidance for the visual pathway and often leads MLLMs to discard fine-grained visual details during training. In this paper, we present VIsual Representation ALignment (VIRAL), a simple yet effective regularization strategy that aligns the internal visual representations of MLLMs with those of pre-trained vision foundation models (VFMs). By explicitly enforcing this alignment, VIRAL enables the model not only to retain critical visual details from the input vision encoder but also to complement additional visual knowledge from VFMs, thereby enhancing its ability to reason over complex visual inputs. Our experiments demonstrate consistent improvements across all tasks on widely adopted multimodal benchmarks. Furthermore, we conduct comprehensive ablation studies to validate the key design choices underlying our framework. We believe this simple finding opens up an important direction for the effective integration of visual information in training MLLMs.

Allineamento della Rappresentazione Visiva per Modelli Linguistici Multimodali di Grande Scala

Visual Representation Alignment for Multimodal Large Language Models

Abstract

Support