Выравнивание визуальных представлений для мультимодальных больших языковых моделей
Visual Representation Alignment for Multimodal Large Language Models
September 9, 2025
Авторы: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs), обученные с использованием визуальной настройки инструкций, демонстрируют высокую производительность в разнообразных задачах, однако остаются ограниченными в задачах, ориентированных на зрение, таких как подсчет объектов или пространственное рассуждение. Мы связываем этот разрыв с преобладающей парадигмой текстового супервизирования, которая предоставляет лишь косвенное руководство для визуального пути и часто приводит к тому, что MLLMs теряют мелкие визуальные детали в процессе обучения. В данной статье мы представляем VIsual Representation ALignment (VIRAL) — простую, но эффективную стратегию регуляризации, которая выравнивает внутренние визуальные представления MLLMs с представлениями предобученных базовых моделей зрения (VFMs). Явно обеспечивая это выравнивание, VIRAL позволяет модели не только сохранять важные визуальные детали из входного визуального кодировщика, но и дополнять их дополнительными визуальными знаниями из VFMs, тем самым улучшая способность модели рассуждать над сложными визуальными данными. Наши эксперименты демонстрируют последовательные улучшения во всех задачах на широко используемых мультимодальных бенчмарках. Кроме того, мы проводим всесторонние исследования абляции, чтобы подтвердить ключевые проектные решения, лежащие в основе нашей структуры. Мы считаем, что это простое открытие открывает важное направление для эффективной интеграции визуальной информации в обучение MLLMs.
English
Multimodal large language models (MLLMs) trained with visual instruction
tuning have achieved strong performance across diverse tasks, yet they remain
limited in vision-centric tasks such as object counting or spatial reasoning.
We attribute this gap to the prevailing text-only supervision paradigm, which
provides only indirect guidance for the visual pathway and often leads MLLMs to
discard fine-grained visual details during training. In this paper, we present
VIsual Representation ALignment (VIRAL), a simple yet effective regularization
strategy that aligns the internal visual representations of MLLMs with those of
pre-trained vision foundation models (VFMs). By explicitly enforcing this
alignment, VIRAL enables the model not only to retain critical visual details
from the input vision encoder but also to complement additional visual
knowledge from VFMs, thereby enhancing its ability to reason over complex
visual inputs. Our experiments demonstrate consistent improvements across all
tasks on widely adopted multimodal benchmarks. Furthermore, we conduct
comprehensive ablation studies to validate the key design choices underlying
our framework. We believe this simple finding opens up an important direction
for the effective integration of visual information in training MLLMs.