Compreendendo o Prior de Linguagem dos LVLMs por meio do Contraste de Cadeia de Incorporação
Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding
September 27, 2025
Autores: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li
cs.AI
Resumo
Modelos de grande escala visão-linguagem (LVLMs, do inglês Large Vision-Language Models) alcançam um desempenho robusto em tarefas multimodais, mas frequentemente recorrem ao seu prior linguístico (LP, do inglês Language Prior) — padrões textuais memorizados durante o pré-treinamento — subutilizando evidências visuais. Análises anteriores do LP baseiam-se principalmente em sondagens de entrada-saída, que falham em revelar os mecanismos internos que governam quando e como a visão influencia o comportamento do modelo. Para preencher essa lacuna, apresentamos a primeira análise sistemática do prior linguístico através da lente da cadeia de embeddings, que examina a dinâmica das representações camada por camada dentro dos LVLMs. Nossa análise revela um fenômeno universal: cada modelo exibe um Ponto de Integração Visual (VIP, do inglês Visual Integration Point), uma camada crítica na qual a informação visual começa a remodelar significativamente as representações ocultas e a influenciar a decodificação. Com base nessa observação, introduzimos o estimador de Integração Visual Total (TVI, do inglês Total Visual Integration), que agrega a distância das representações além do VIP para quantificar o quão fortemente a consulta visual influencia a geração de respostas. Em 54 combinações de modelo-conjunto de dados, abrangendo 9 LVLMs contemporâneos e 6 benchmarks, demonstramos que o VIP emerge consistentemente e que o TVI prevê de forma confiável a força do prior linguístico. Isso oferece um conjunto de ferramentas fundamentado para diagnosticar e compreender o prior linguístico em LVLMs.
English
Large vision-language models (LVLMs) achieve strong performance on multimodal
tasks, yet they often default to their language prior (LP) -- memorized textual
patterns from pre-training while under-utilizing visual evidence. Prior
analyses of LP mostly rely on input-output probing, which fails to reveal the
internal mechanisms governing when and how vision influences model behavior. To
address this gap, we present the first systematic analysis of language prior
through the lens of chain-of-embedding, which examines the layer-wise
representation dynamics within LVLMs. Our analysis reveals a universal
phenomenon: each model exhibits a Visual Integration Point (VIP), a critical
layer at which visual information begins to meaningfully reshape hidden
representations and influence decoding. Building on this observation, we
introduce the Total Visual Integration (TVI) estimator, which aggregates
representation distance beyond the VIP to quantify how strongly visual query
influences response generation. Across 54 model-dataset combinations spanning 9
contemporary LVLMs and 6 benchmarks, we demonstrate that VIP consistently
emerges, and that TVI reliably predicts the strength of language prior. This
offers a principled toolkit for diagnosing and understanding language prior in
LVLMs.