Visuele Representatie-uitlijning voor Multimodale Grote Taalmodellen

Samenvatting

Multimodale grote taalmodellen (MLLMs) die zijn getraind met visuele instructieafstemming hebben sterke prestaties behaald in diverse taken, maar blijven beperkt in visueel gerichte taken zoals objecttelling of ruimtelijk redeneren. Wij schrijven deze kloof toe aan het heersende tekstgerichte supervisieparadigma, dat slechts indirecte begeleiding biedt voor het visuele pad en vaak leidt tot het verlies van fijnmazige visuele details tijdens de training. In dit artikel presenteren we VIsual Representation ALignment (VIRAL), een eenvoudige maar effectieve regularisatiestrategie die de interne visuele representaties van MLLMs afstemt op die van vooraf getrainde visuele basis modellen (VFMs). Door deze afstemming expliciet af te dwingen, stelt VIRAL het model in staat niet alleen kritieke visuele details van de visuele invoercodering te behouden, maar ook aanvullende visuele kennis van VFMs aan te vullen, waardoor het vermogen om complexe visuele invoer te interpreteren wordt verbeterd. Onze experimenten tonen consistente verbeteringen aan in alle taken op veelgebruikte multimodale benchmarks. Daarnaast voeren we uitgebreide ablatiestudies uit om de belangrijkste ontwerpkeuzes achter ons framework te valideren. Wij geloven dat deze eenvoudige bevinding een belangrijke richting opent voor de effectieve integratie van visuele informatie in de training van MLLMs.

English

Multimodal large language models (MLLMs) trained with visual instruction tuning have achieved strong performance across diverse tasks, yet they remain limited in vision-centric tasks such as object counting or spatial reasoning. We attribute this gap to the prevailing text-only supervision paradigm, which provides only indirect guidance for the visual pathway and often leads MLLMs to discard fine-grained visual details during training. In this paper, we present VIsual Representation ALignment (VIRAL), a simple yet effective regularization strategy that aligns the internal visual representations of MLLMs with those of pre-trained vision foundation models (VFMs). By explicitly enforcing this alignment, VIRAL enables the model not only to retain critical visual details from the input vision encoder but also to complement additional visual knowledge from VFMs, thereby enhancing its ability to reason over complex visual inputs. Our experiments demonstrate consistent improvements across all tasks on widely adopted multimodal benchmarks. Furthermore, we conduct comprehensive ablation studies to validate the key design choices underlying our framework. We believe this simple finding opens up an important direction for the effective integration of visual information in training MLLMs.

Visuele Representatie-uitlijning voor Multimodale Grote Taalmodellen

Visual Representation Alignment for Multimodal Large Language Models

Samenvatting

Support