Alineación de Representaciones Visuales para Modelos de Lenguaje Multimodales de Gran Escala
Visual Representation Alignment for Multimodal Large Language Models
September 9, 2025
Autores: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) entrenados con ajuste visual mediante instrucciones han logrado un rendimiento sólido en diversas tareas, pero siguen siendo limitados en tareas centradas en la visión, como el conteo de objetos o el razonamiento espacial. Atribuimos esta brecha al paradigma predominante de supervisión basada únicamente en texto, que proporciona solo una guía indirecta para la vía visual y a menudo lleva a los MLLMs a descartar detalles visuales finos durante el entrenamiento. En este artículo, presentamos VIsual Representation ALignment (VIRAL), una estrategia de regularización simple pero efectiva que alinea las representaciones visuales internas de los MLLMs con las de modelos fundamentales de visión preentrenados (VFMs, por sus siglas en inglés). Al imponer explícitamente esta alineación, VIRAL permite al modelo no solo retener detalles visuales críticos del codificador visual de entrada, sino también complementar conocimientos visuales adicionales de los VFMs, mejorando así su capacidad para razonar sobre entradas visuales complejas. Nuestros experimentos demuestran mejoras consistentes en todas las tareas de los puntos de referencia multimodales ampliamente adoptados. Además, realizamos estudios de ablación exhaustivos para validar las decisiones clave de diseño subyacentes en nuestro marco. Creemos que este hallazgo simple abre una dirección importante para la integración efectiva de información visual en el entrenamiento de MLLMs.
English
Multimodal large language models (MLLMs) trained with visual instruction
tuning have achieved strong performance across diverse tasks, yet they remain
limited in vision-centric tasks such as object counting or spatial reasoning.
We attribute this gap to the prevailing text-only supervision paradigm, which
provides only indirect guidance for the visual pathway and often leads MLLMs to
discard fine-grained visual details during training. In this paper, we present
VIsual Representation ALignment (VIRAL), a simple yet effective regularization
strategy that aligns the internal visual representations of MLLMs with those of
pre-trained vision foundation models (VFMs). By explicitly enforcing this
alignment, VIRAL enables the model not only to retain critical visual details
from the input vision encoder but also to complement additional visual
knowledge from VFMs, thereby enhancing its ability to reason over complex
visual inputs. Our experiments demonstrate consistent improvements across all
tasks on widely adopted multimodal benchmarks. Furthermore, we conduct
comprehensive ablation studies to validate the key design choices underlying
our framework. We believe this simple finding opens up an important direction
for the effective integration of visual information in training MLLMs.