Het Begrijpen van de Taalkundige Prior van LVLM's door Contrast van de Ketting-van-Inbeddingen
Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding
September 27, 2025
Auteurs: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li
cs.AI
Samenvatting
Grote visueel-taalmodelen (LVLMs) behalen sterke prestaties op multimodale taken, maar vertrouwen vaak op hun taalprior (LP) — gememoriseerde tekstuele patronen uit de voorafgaande training — terwijl ze visueel bewijs onderbenutten. Eerdere analyses van LP baseren zich voornamelijk op input-output-probing, wat niet in staat is om de interne mechanismen te onthullen die bepalen wanneer en hoe visuele informatie het modelgedrag beïnvloedt. Om deze kloof te overbruggen, presenteren we de eerste systematische analyse van taalprior door de lens van chain-of-embedding, waarbij de laag-voor-laag representatiedynamiek binnen LVLMs wordt onderzocht. Onze analyse onthult een universeel fenomeen: elk model vertoont een Visueel Integratiepunt (VIP), een kritieke laag waarop visuele informatie betekenisvol de verborgen representaties begint te hervormen en het decoderen beïnvloedt. Op basis van deze observatie introduceren we de Total Visual Integration (TVI) schatter, die de representatieafstand voorbij het VIP aggregeert om te kwantificeren hoe sterk de visuele query de responsgeneratie beïnvloedt. Over 54 model-datasetcombinaties, verspreid over 9 hedendaagse LVLMs en 6 benchmarks, tonen we aan dat het VIP consistent naar voren komt en dat TVI betrouwbaar de sterkte van de taalprior voorspelt. Dit biedt een principieel toolkit voor het diagnosticeren en begrijpen van taalprior in LVLMs.
English
Large vision-language models (LVLMs) achieve strong performance on multimodal
tasks, yet they often default to their language prior (LP) -- memorized textual
patterns from pre-training while under-utilizing visual evidence. Prior
analyses of LP mostly rely on input-output probing, which fails to reveal the
internal mechanisms governing when and how vision influences model behavior. To
address this gap, we present the first systematic analysis of language prior
through the lens of chain-of-embedding, which examines the layer-wise
representation dynamics within LVLMs. Our analysis reveals a universal
phenomenon: each model exhibits a Visual Integration Point (VIP), a critical
layer at which visual information begins to meaningfully reshape hidden
representations and influence decoding. Building on this observation, we
introduce the Total Visual Integration (TVI) estimator, which aggregates
representation distance beyond the VIP to quantify how strongly visual query
influences response generation. Across 54 model-dataset combinations spanning 9
contemporary LVLMs and 6 benchmarks, we demonstrate that VIP consistently
emerges, and that TVI reliably predicts the strength of language prior. This
offers a principled toolkit for diagnosing and understanding language prior in
LVLMs.