Понимание языковых приоритетов LVLM через контрастирование цепочки вложений
Understanding Language Prior of LVLMs by Contrasting Chain-of-Embedding
September 27, 2025
Авторы: Lin Long, Changdae Oh, Seongheon Park, Yixuan Li
cs.AI
Аннотация
Крупные модели, работающие с визуальными и текстовыми данными (LVLMs), демонстрируют высокую производительность в мультимодальных задачах, однако они часто полагаются на языковой приоритет (LP) — запомненные текстовые шаблоны, полученные в ходе предварительного обучения, при этом недостаточно используя визуальные данные. Предыдущие исследования LP в основном основывались на анализе входных и выходных данных, что не позволяет раскрыть внутренние механизмы, определяющие, когда и как визуальная информация влияет на поведение модели. Чтобы устранить этот пробел, мы представляем первое систематическое исследование языкового приоритета через призму цепочки вложений (chain-of-embedding), которое изучает динамику представлений на уровне слоев внутри LVLMs. Наш анализ выявляет универсальное явление: каждая модель демонстрирует точку интеграции визуальной информации (VIP) — критический слой, на котором визуальные данные начинают существенно преобразовывать скрытые представления и влиять на декодирование. На основе этого наблюдения мы вводим оценку общей интеграции визуальной информации (TVI), которая агрегирует расстояние представлений после VIP для количественной оценки того, насколько сильно визуальный запрос влияет на генерацию ответа. На примере 54 комбинаций моделей и наборов данных, охватывающих 9 современных LVLMs и 6 бенчмарков, мы показываем, что VIP стабильно проявляется, а TVI надежно предсказывает силу языкового приоритета. Это предоставляет принципиальный инструментарий для диагностики и понимания языкового приоритета в LVLMs.
English
Large vision-language models (LVLMs) achieve strong performance on multimodal
tasks, yet they often default to their language prior (LP) -- memorized textual
patterns from pre-training while under-utilizing visual evidence. Prior
analyses of LP mostly rely on input-output probing, which fails to reveal the
internal mechanisms governing when and how vision influences model behavior. To
address this gap, we present the first systematic analysis of language prior
through the lens of chain-of-embedding, which examines the layer-wise
representation dynamics within LVLMs. Our analysis reveals a universal
phenomenon: each model exhibits a Visual Integration Point (VIP), a critical
layer at which visual information begins to meaningfully reshape hidden
representations and influence decoding. Building on this observation, we
introduce the Total Visual Integration (TVI) estimator, which aggregates
representation distance beyond the VIP to quantify how strongly visual query
influences response generation. Across 54 model-dataset combinations spanning 9
contemporary LVLMs and 6 benchmarks, we demonstrate that VIP consistently
emerges, and that TVI reliably predicts the strength of language prior. This
offers a principled toolkit for diagnosing and understanding language prior in
LVLMs.