Alineación de Representaciones Visuales para Modelos de Lenguaje Multimodales de Gran Escala

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) entrenados con ajuste visual mediante instrucciones han logrado un rendimiento sólido en diversas tareas, pero siguen siendo limitados en tareas centradas en la visión, como el conteo de objetos o el razonamiento espacial. Atribuimos esta brecha al paradigma predominante de supervisión basada únicamente en texto, que proporciona solo una guía indirecta para la vía visual y a menudo lleva a los MLLMs a descartar detalles visuales finos durante el entrenamiento. En este artículo, presentamos VIsual Representation ALignment (VIRAL), una estrategia de regularización simple pero efectiva que alinea las representaciones visuales internas de los MLLMs con las de modelos fundamentales de visión preentrenados (VFMs, por sus siglas en inglés). Al imponer explícitamente esta alineación, VIRAL permite al modelo no solo retener detalles visuales críticos del codificador visual de entrada, sino también complementar conocimientos visuales adicionales de los VFMs, mejorando así su capacidad para razonar sobre entradas visuales complejas. Nuestros experimentos demuestran mejoras consistentes en todas las tareas de los puntos de referencia multimodales ampliamente adoptados. Además, realizamos estudios de ablación exhaustivos para validar las decisiones clave de diseño subyacentes en nuestro marco. Creemos que este hallazgo simple abre una dirección importante para la integración efectiva de información visual en el entrenamiento de MLLMs.

English

Multimodal large language models (MLLMs) trained with visual instruction tuning have achieved strong performance across diverse tasks, yet they remain limited in vision-centric tasks such as object counting or spatial reasoning. We attribute this gap to the prevailing text-only supervision paradigm, which provides only indirect guidance for the visual pathway and often leads MLLMs to discard fine-grained visual details during training. In this paper, we present VIsual Representation ALignment (VIRAL), a simple yet effective regularization strategy that aligns the internal visual representations of MLLMs with those of pre-trained vision foundation models (VFMs). By explicitly enforcing this alignment, VIRAL enables the model not only to retain critical visual details from the input vision encoder but also to complement additional visual knowledge from VFMs, thereby enhancing its ability to reason over complex visual inputs. Our experiments demonstrate consistent improvements across all tasks on widely adopted multimodal benchmarks. Furthermore, we conduct comprehensive ablation studies to validate the key design choices underlying our framework. We believe this simple finding opens up an important direction for the effective integration of visual information in training MLLMs.

Alineación de Representaciones Visuales para Modelos de Lenguaje Multimodales de Gran Escala

Visual Representation Alignment for Multimodal Large Language Models

Resumen

Support