Visuelle Repräsentationsausrichtung für multimodale Large Language Models
Visual Representation Alignment for Multimodal Large Language Models
September 9, 2025
papers.authors: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang Han, Donghyun Kim, Chanho Eom, Sunghwan Hong, Seungryong Kim
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs), die mit visueller Instruktionsfeinabstimmung trainiert wurden, haben starke Leistungen in verschiedenen Aufgaben erzielt, bleiben jedoch in visuell zentrierten Aufgaben wie Objektzählung oder räumlichem Schließen begrenzt. Wir führen diese Lücke auf das vorherrschende textbasierte Aufsichtsparadigma zurück, das nur indirekte Anleitung für den visuellen Pfad bietet und oft dazu führt, dass MLLMs feinkörnige visuelle Details während des Trainings verwerfen. In diesem Artikel stellen wir VIsual Representation ALignment (VIRAL) vor, eine einfache, aber effektive Regularisierungsstrategie, die die internen visuellen Repräsentationen von MLLMs mit denen vortrainierter visueller Basismodelle (VFMs) ausrichtet. Durch die explizite Durchsetzung dieser Ausrichtung ermöglicht VIRAL dem Modell nicht nur, kritische visuelle Details aus dem visuellen Eingabecodierer zu bewahren, sondern auch zusätzliches visuelles Wissen von VFMs zu ergänzen, wodurch seine Fähigkeit zur Verarbeitung komplexer visueller Eingaben verbessert wird. Unsere Experimente zeigen konsistente Verbesserungen in allen Aufgaben auf weit verbreiteten multimodalen Benchmarks. Darüber hinaus führen wir umfassende Ablationsstudien durch, um die zugrunde liegenden Schlüsselentscheidungen unseres Frameworks zu validieren. Wir glauben, dass diese einfache Erkenntnis eine wichtige Richtung für die effektive Integration visueller Informationen in das Training von MLLMs eröffnet.
English
Multimodal large language models (MLLMs) trained with visual instruction
tuning have achieved strong performance across diverse tasks, yet they remain
limited in vision-centric tasks such as object counting or spatial reasoning.
We attribute this gap to the prevailing text-only supervision paradigm, which
provides only indirect guidance for the visual pathway and often leads MLLMs to
discard fine-grained visual details during training. In this paper, we present
VIsual Representation ALignment (VIRAL), a simple yet effective regularization
strategy that aligns the internal visual representations of MLLMs with those of
pre-trained vision foundation models (VFMs). By explicitly enforcing this
alignment, VIRAL enables the model not only to retain critical visual details
from the input vision encoder but also to complement additional visual
knowledge from VFMs, thereby enhancing its ability to reason over complex
visual inputs. Our experiments demonstrate consistent improvements across all
tasks on widely adopted multimodal benchmarks. Furthermore, we conduct
comprehensive ablation studies to validate the key design choices underlying
our framework. We believe this simple finding opens up an important direction
for the effective integration of visual information in training MLLMs.