Más Allá del Dominio del Texto: Comprendiendo la Preferencia Modal de Modelos de Lenguaje Grandes Omnimodales

Resumen

Los Modelos de Lenguaje Grandes Omnimodales Nativos (OLLMs) han evolucionado desde arquitecturas en pipeline hacia espacios de representación unificados. Sin embargo, esta integración nativa da lugar a un fenómeno crítico pero poco explorado: la preferencia modal. Para abordar esta brecha, primero cuantificamos sistemáticamente la preferencia modal de los OLLMs utilizando un nuevo benchmark basado en conflicto y la métrica de tasa de selección modal. Nuestra evaluación de diez OLLMs representativos revela un cambio de paradigma notable: a diferencia del "dominio textual" de los modelos de lenguaje visual tradicionales, la mayoría de los OLLMs exhiben una marcada preferencia visual. Para comprender mejor el mecanismo subyacente, realizamos un análisis por capas que demuestra que dicha preferencia modal no es estática, sino que emerge progresivamente en las capas medias y tardías. Basándonos en estos hallazgos, aprovechamos estas señales internas para diagnosticar alucinaciones cross-modales, logrando un rendimiento competitivo en tres benchmarks multimodales posteriores sin datos específicos de la tarea. Nuestro trabajo proporciona tanto una comprensión mecanicista como una herramienta práctica para construir OLLMs más confiables. Nuestro código y recursos relacionados están disponibles públicamente en: https://github.com/icip-cas/OmniPreference

English

Native Omni-modal Large Language Models (OLLMs) have shifted from pipeline architectures to unified representation spaces. However, this native integration gives rise to a critical yet underexplored phenomenon: modality preference. To bridge this gap, we first systematically quantify modality preference of OLLMs using a newly-curated conflict-based benchmark and the modality selection rate metric. Our evaluation of ten representative OLLMs reveals a notable paradigm shift: unlike the ``text-dominance'' of traditional VLMs, most OLLMs exhibit a pronounced visual preference. To further understand the underlying mechanism, we conduct layer-wise probing and demonstrate that such modality preference is not static but emerges progressively in the mid-to-late layers. Building upon these insights, we leverage these internal signals to diagnose cross-modal hallucinations, achieving competitive performance across three downstream multi-modal benchmarks without task-specific data. Our work provides both a mechanistic understanding and a practical tool for building more trustworthy OLLMs. Our code and related resources are publicly available at: https://github.com/icip-cas/OmniPreference

Más Allá del Dominio del Texto: Comprendiendo la Preferencia Modal de Modelos de Lenguaje Grandes Omnimodales

Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Resumen

Support