ChatPaper.aiChatPaper

Alinhamento de Representação Visual para Modelos de Linguagem Multimodais de Grande Escala

Visual Representation Alignment for Multimodal Large Language Models

September 9, 2025
Autores: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim
cs.AI

Resumo

Modelos de linguagem multimodal de grande escala (MLLMs) treinados com ajuste fino por instrução visual têm alcançado um desempenho robusto em diversas tarefas, mas ainda apresentam limitações em tarefas centradas na visão, como contagem de objetos ou raciocínio espacial. Atribuímos essa lacuna ao paradigma predominante de supervisão baseada apenas em texto, que fornece orientação indireta para o caminho visual e frequentemente leva os MLLMs a descartar detalhes visuais refinados durante o treinamento. Neste artigo, apresentamos o VIsual Representation ALignment (VIRAL), uma estratégia de regularização simples, porém eficaz, que alinha as representações visuais internas dos MLLMs com as de modelos de base visual (VFMs) pré-treinados. Ao impor explicitamente esse alinhamento, o VIRAL permite que o modelo não apenas retenha detalhes visuais críticos do codificador visual de entrada, mas também complemente conhecimentos visuais adicionais dos VFMs, aprimorando assim sua capacidade de raciocinar sobre entradas visuais complexas. Nossos experimentos demonstram melhorias consistentes em todas as tarefas de benchmarks multimodais amplamente adotados. Além disso, realizamos estudos abrangentes de ablação para validar as principais escolhas de design subjacentes ao nosso framework. Acreditamos que essa descoberta simples abre uma direção importante para a integração eficaz de informações visuais no treinamento de MLLMs.
English
Multimodal large language models (MLLMs) trained with visual instruction tuning have achieved strong performance across diverse tasks, yet they remain limited in vision-centric tasks such as object counting or spatial reasoning. We attribute this gap to the prevailing text-only supervision paradigm, which provides only indirect guidance for the visual pathway and often leads MLLMs to discard fine-grained visual details during training. In this paper, we present VIsual Representation ALignment (VIRAL), a simple yet effective regularization strategy that aligns the internal visual representations of MLLMs with those of pre-trained vision foundation models (VFMs). By explicitly enforcing this alignment, VIRAL enables the model not only to retain critical visual details from the input vision encoder but also to complement additional visual knowledge from VFMs, thereby enhancing its ability to reason over complex visual inputs. Our experiments demonstrate consistent improvements across all tasks on widely adopted multimodal benchmarks. Furthermore, we conduct comprehensive ablation studies to validate the key design choices underlying our framework. We believe this simple finding opens up an important direction for the effective integration of visual information in training MLLMs.
PDF717September 10, 2025