Visuele Representatie-uitlijning voor Multimodale Grote Taalmodellen
Visual Representation Alignment for Multimodal Large Language Models
September 9, 2025
Auteurs: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs) die zijn getraind met visuele instructieafstemming hebben sterke prestaties behaald in diverse taken, maar blijven beperkt in visueel gerichte taken zoals objecttelling of ruimtelijk redeneren. Wij schrijven deze kloof toe aan het heersende tekstgerichte supervisieparadigma, dat slechts indirecte begeleiding biedt voor het visuele pad en vaak leidt tot het verlies van fijnmazige visuele details tijdens de training. In dit artikel presenteren we VIsual Representation ALignment (VIRAL), een eenvoudige maar effectieve regularisatiestrategie die de interne visuele representaties van MLLMs afstemt op die van vooraf getrainde visuele basis modellen (VFMs). Door deze afstemming expliciet af te dwingen, stelt VIRAL het model in staat niet alleen kritieke visuele details van de visuele invoercodering te behouden, maar ook aanvullende visuele kennis van VFMs aan te vullen, waardoor het vermogen om complexe visuele invoer te interpreteren wordt verbeterd. Onze experimenten tonen consistente verbeteringen aan in alle taken op veelgebruikte multimodale benchmarks. Daarnaast voeren we uitgebreide ablatiestudies uit om de belangrijkste ontwerpkeuzes achter ons framework te valideren. Wij geloven dat deze eenvoudige bevinding een belangrijke richting opent voor de effectieve integratie van visuele informatie in de training van MLLMs.
English
Multimodal large language models (MLLMs) trained with visual instruction
tuning have achieved strong performance across diverse tasks, yet they remain
limited in vision-centric tasks such as object counting or spatial reasoning.
We attribute this gap to the prevailing text-only supervision paradigm, which
provides only indirect guidance for the visual pathway and often leads MLLMs to
discard fine-grained visual details during training. In this paper, we present
VIsual Representation ALignment (VIRAL), a simple yet effective regularization
strategy that aligns the internal visual representations of MLLMs with those of
pre-trained vision foundation models (VFMs). By explicitly enforcing this
alignment, VIRAL enables the model not only to retain critical visual details
from the input vision encoder but also to complement additional visual
knowledge from VFMs, thereby enhancing its ability to reason over complex
visual inputs. Our experiments demonstrate consistent improvements across all
tasks on widely adopted multimodal benchmarks. Furthermore, we conduct
comprehensive ablation studies to validate the key design choices underlying
our framework. We believe this simple finding opens up an important direction
for the effective integration of visual information in training MLLMs.