Comprendiendo el Prior Lingüístico de los LVLM mediante la Contrastación de la Cadena de Incrustaciones
Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding
September 27, 2025
Autores: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li
cs.AI
Resumen
Los grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés) logran un rendimiento sólido en tareas multimodales, aunque a menudo recurren a su prioridad lingüística (LP, por sus siglas en inglés) —patrones textuales memorizados durante el preentrenamiento— mientras subutilizan la evidencia visual. Los análisis previos de LP se basan principalmente en sondeos de entrada-salida, lo que no logra revelar los mecanismos internos que gobiernan cuándo y cómo la visión influye en el comportamiento del modelo. Para abordar esta brecha, presentamos el primer análisis sistemático de la prioridad lingüística a través de la lente de la cadena de incrustaciones, que examina la dinámica de representación capa por capa dentro de los LVLMs. Nuestro análisis revela un fenómeno universal: cada modelo exhibe un Punto de Integración Visual (VIP, por sus siglas en inglés), una capa crítica en la que la información visual comienza a remodelar significativamente las representaciones ocultas e influir en la decodificación. Basándonos en esta observación, introducimos el estimador de Integración Visual Total (TVI, por sus siglas en inglés), que agrega la distancia de representación más allá del VIP para cuantificar cuán fuertemente la consulta visual influye en la generación de respuestas. A través de 54 combinaciones de modelos y conjuntos de datos que abarcan 9 LVLMs contemporáneos y 6 puntos de referencia, demostramos que el VIP emerge consistentemente y que el TVI predice de manera confiable la fuerza de la prioridad lingüística. Esto ofrece un conjunto de herramientas fundamentales para diagnosticar y comprender la prioridad lingüística en los LVLMs.
English
Large vision-language models (LVLMs) achieve strong performance on multimodal
tasks, yet they often default to their language prior (LP) -- memorized textual
patterns from pre-training while under-utilizing visual evidence. Prior
analyses of LP mostly rely on input-output probing, which fails to reveal the
internal mechanisms governing when and how vision influences model behavior. To
address this gap, we present the first systematic analysis of language prior
through the lens of chain-of-embedding, which examines the layer-wise
representation dynamics within LVLMs. Our analysis reveals a universal
phenomenon: each model exhibits a Visual Integration Point (VIP), a critical
layer at which visual information begins to meaningfully reshape hidden
representations and influence decoding. Building on this observation, we
introduce the Total Visual Integration (TVI) estimator, which aggregates
representation distance beyond the VIP to quantify how strongly visual query
influences response generation. Across 54 model-dataset combinations spanning 9
contemporary LVLMs and 6 benchmarks, we demonstrate that VIP consistently
emerges, and that TVI reliably predicts the strength of language prior. This
offers a principled toolkit for diagnosing and understanding language prior in
LVLMs.