ChatPaper.aiChatPaper

Verständnis der Sprachpriorität von LVLMs durch Kontrastierung der Kette von Einbettungen

Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding

September 27, 2025
papers.authors: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li
cs.AI

papers.abstract

Große visuell-sprachliche Modelle (LVLMs) erzielen starke Leistungen bei multimodalen Aufgaben, greifen jedoch oft auf ihre sprachliche Priorität (LP) zurück – gespeicherte textuelle Muster aus dem Vorabtraining – und nutzen visuelle Hinweise nur unzureichend. Bisherige Analysen der LP stützen sich hauptsächlich auf Input-Output-Tests, die nicht die internen Mechanismen offenlegen, die bestimmen, wann und wie visuelle Informationen das Modellverhalten beeinflussen. Um diese Lücke zu schließen, präsentieren wir die erste systematische Analyse der sprachlichen Priorität durch die Linse der „Chain-of-Embedding“, die die schichtweisen Repräsentationsdynamiken innerhalb von LVLMs untersucht. Unsere Analyse zeigt ein universelles Phänomen: Jedes Modell weist einen „Visual Integration Point“ (VIP) auf, eine kritische Schicht, ab der visuelle Informationen die verborgenen Repräsentationen maßgeblich umgestalten und die Dekodierung beeinflussen. Basierend auf dieser Beobachtung führen wir den „Total Visual Integration“ (TVI)-Schätzer ein, der die Repräsentationsdistanz über den VIP hinaus aggregiert, um zu quantifizieren, wie stark die visuelle Anfrage die Antwortgenerierung beeinflusst. Über 54 Modell-Datensatz-Kombinationen, die 9 zeitgenössische LVLMs und 6 Benchmarks umfassen, zeigen wir, dass der VIP konsistent auftritt und dass der TVI zuverlässig die Stärke der sprachlichen Priorität vorhersagt. Dies bietet ein prinzipielles Toolkit zur Diagnose und zum Verständnis der sprachlichen Priorität in LVLMs.
English
Large vision-language models (LVLMs) achieve strong performance on multimodal tasks, yet they often default to their language prior (LP) -- memorized textual patterns from pre-training while under-utilizing visual evidence. Prior analyses of LP mostly rely on input-output probing, which fails to reveal the internal mechanisms governing when and how vision influences model behavior. To address this gap, we present the first systematic analysis of language prior through the lens of chain-of-embedding, which examines the layer-wise representation dynamics within LVLMs. Our analysis reveals a universal phenomenon: each model exhibits a Visual Integration Point (VIP), a critical layer at which visual information begins to meaningfully reshape hidden representations and influence decoding. Building on this observation, we introduce the Total Visual Integration (TVI) estimator, which aggregates representation distance beyond the VIP to quantify how strongly visual query influences response generation. Across 54 model-dataset combinations spanning 9 contemporary LVLMs and 6 benchmarks, we demonstrate that VIP consistently emerges, and that TVI reliably predicts the strength of language prior. This offers a principled toolkit for diagnosing and understanding language prior in LVLMs.
PDF102September 30, 2025