За пределами доминирования текста: изучение модальных предпочтений омнимодальных больших языковых моделей
Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models
April 18, 2026
Авторы: Xinru Yan, Boxi Cao, Yaojie Lu, Hongyu Lin, Weixiang Zhou, Le Sun, Xianpei Han
cs.AI
Аннотация
Родные омнимодальные большие языковые модели (OLLM) перешли от конвейерных архитектур к унифицированным пространствам представлений. Однако эта нативная интеграция порождает критическое, но малоизученное явление: модальное предпочтение. Чтобы заполнить этот пробел, мы сначала систематически количественно оцениваем модальное предпочтение OLLM с помощью нового конфликтного бенчмарка и метрики частоты выбора модальности. Наша оценка десяти репрезентативных OLLM выявляет заметный сдвиг парадигмы: в отличие от «доминирования текста» у традиционных VLM, большинство OLLM демонстрируют выраженное визуальное предпочтение. Чтобы глубже понять лежащий в основе механизм, мы проводим послойный анализ и показываем, что такое модальное предпочтение не является статичным, а прогрессивно возникает в средних и поздних слоях. Опираясь на эти инсайты, мы используем эти внутренние сигналы для диагностики кросс-модальных галлюцинаций, достигая конкурентоспособной производительности на трех downstream многомодальных бенчмарках без данных, специфичных для задачи. Наша работа предоставляет как механистическое понимание, так и практический инструмент для создания более надежных OLLM. Наш код и связанные ресурсы общедоступны по адресу: https://github.com/icip-cas/OmniPreference
English
Native Omni-modal Large Language Models (OLLMs) have shifted from pipeline architectures to unified representation spaces. However, this native integration gives rise to a critical yet underexplored phenomenon: modality preference. To bridge this gap, we first systematically quantify modality preference of OLLMs using a newly-curated conflict-based benchmark and the modality selection rate metric. Our evaluation of ten representative OLLMs reveals a notable paradigm shift: unlike the ``text-dominance'' of traditional VLMs, most OLLMs exhibit a pronounced visual preference. To further understand the underlying mechanism, we conduct layer-wise probing and demonstrate that such modality preference is not static but emerges progressively in the mid-to-late layers. Building upon these insights, we leverage these internal signals to diagnose cross-modal hallucinations, achieving competitive performance across three downstream multi-modal benchmarks without task-specific data. Our work provides both a mechanistic understanding and a practical tool for building more trustworthy OLLMs. Our code and related resources are publicly available at: https://github.com/icip-cas/OmniPreference