ChatPaper.aiChatPaper

Comprendere il Prior Linguistico dei LVLM attraverso il Contrasto della Catena di Embedding

Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding

September 27, 2025
Autori: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li
cs.AI

Abstract

I grandi modelli visione-linguaggio (LVLM) raggiungono prestazioni elevate nei compiti multimodali, ma spesso ricadono sul loro prior linguistico (LP) — schemi testuali memorizzati durante il pre-training — sottoutilizzando le evidenze visive. Le analisi precedenti del LP si basano principalmente su sondaggi input-output, che non riescono a rivelare i meccanismi interni che governano quando e come la visione influenza il comportamento del modello. Per colmare questa lacuna, presentiamo la prima analisi sistematica del prior linguistico attraverso la lente della catena di embedding, che esamina la dinamica delle rappresentazioni strato per strato all'interno dei LVLM. La nostra analisi rivela un fenomeno universale: ogni modello presenta un Punto di Integrazione Visiva (VIP), uno strato critico in cui le informazioni visive iniziano a rimodellare significativamente le rappresentazioni nascoste e a influenzare la decodifica. Basandoci su questa osservazione, introduciamo lo stimatore di Integrazione Visiva Totale (TVI), che aggrega la distanza delle rappresentazioni oltre il VIP per quantificare quanto fortemente la query visiva influisce sulla generazione della risposta. Attraverso 54 combinazioni modello-dataset che coprono 9 LVLM contemporanei e 6 benchmark, dimostriamo che il VIP emerge costantemente e che il TVI predice in modo affidabile la forza del prior linguistico. Questo offre un toolkit metodologico per diagnosticare e comprendere il prior linguistico nei LVLM.
English
Large vision-language models (LVLMs) achieve strong performance on multimodal tasks, yet they often default to their language prior (LP) -- memorized textual patterns from pre-training while under-utilizing visual evidence. Prior analyses of LP mostly rely on input-output probing, which fails to reveal the internal mechanisms governing when and how vision influences model behavior. To address this gap, we present the first systematic analysis of language prior through the lens of chain-of-embedding, which examines the layer-wise representation dynamics within LVLMs. Our analysis reveals a universal phenomenon: each model exhibits a Visual Integration Point (VIP), a critical layer at which visual information begins to meaningfully reshape hidden representations and influence decoding. Building on this observation, we introduce the Total Visual Integration (TVI) estimator, which aggregates representation distance beyond the VIP to quantify how strongly visual query influences response generation. Across 54 model-dataset combinations spanning 9 contemporary LVLMs and 6 benchmarks, we demonstrate that VIP consistently emerges, and that TVI reliably predicts the strength of language prior. This offers a principled toolkit for diagnosing and understanding language prior in LVLMs.
PDF132September 30, 2025