ChatPaper.aiChatPaper

Comprendre le langage a priori des LVLM par la mise en contraste de la chaîne d'incorporation

Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding

September 27, 2025
papers.authors: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li
cs.AI

papers.abstract

Les grands modèles vision-langage (LVLMs) obtiennent des performances solides sur les tâches multimodales, mais ils ont souvent tendance à se reposer sur leur a priori linguistique (LP) — des motifs textuels mémorisés lors du pré-entraînement — tout en sous-utilisant les indices visuels. Les analyses précédentes du LP reposent principalement sur des sondages entrée-sortie, qui ne parviennent pas à révéler les mécanismes internes régissant quand et comment la vision influence le comportement du modèle. Pour combler cette lacune, nous présentons la première analyse systématique de l'a priori linguistique à travers le prisme de la chaîne d'incorporation, qui examine la dynamique des représentations couche par couche au sein des LVLMs. Notre analyse révèle un phénomène universel : chaque modèle présente un Point d'Intégration Visuelle (VIP), une couche critique à partir de laquelle l'information visuelle commence à remodeler de manière significative les représentations cachées et à influencer le décodage. En nous appuyant sur cette observation, nous introduisons l'estimateur d'Intégration Visuelle Totale (TVI), qui agrège la distance des représentations au-delà du VIP pour quantifier à quel point la requête visuelle influence la génération de la réponse. À travers 54 combinaisons modèle-dataset couvrant 9 LVLMs contemporains et 6 benchmarks, nous démontrons que le VIP émerge de manière cohérente et que le TVI prédit de manière fiable la force de l'a priori linguistique. Cela offre une boîte à outils méthodologique pour diagnostiquer et comprendre l'a priori linguistique dans les LVLMs.
English
Large vision-language models (LVLMs) achieve strong performance on multimodal tasks, yet they often default to their language prior (LP) -- memorized textual patterns from pre-training while under-utilizing visual evidence. Prior analyses of LP mostly rely on input-output probing, which fails to reveal the internal mechanisms governing when and how vision influences model behavior. To address this gap, we present the first systematic analysis of language prior through the lens of chain-of-embedding, which examines the layer-wise representation dynamics within LVLMs. Our analysis reveals a universal phenomenon: each model exhibits a Visual Integration Point (VIP), a critical layer at which visual information begins to meaningfully reshape hidden representations and influence decoding. Building on this observation, we introduce the Total Visual Integration (TVI) estimator, which aggregates representation distance beyond the VIP to quantify how strongly visual query influences response generation. Across 54 model-dataset combinations spanning 9 contemporary LVLMs and 6 benchmarks, we demonstrate that VIP consistently emerges, and that TVI reliably predicts the strength of language prior. This offers a principled toolkit for diagnosing and understanding language prior in LVLMs.
PDF102September 30, 2025