Au-delà de la domination du texte : Comprendre les préférences modales des modèles de langage omnimodaux

Résumé

Les modèles de langage de grande taille omnimodaux natifs (OLLM) sont passés d'architectures modulaires à des espaces de représentation unifiés. Cependant, cette intégration native donne lieu à un phénomène critique mais encore peu exploré : la préférence modale. Pour combler cette lacune, nous quantifions systématiquement la préférence modale des OLLM en utilisant un benchmark conflictuel nouvellement constitué et la métrique du taux de sélection modale. Notre évaluation de dix OLLM représentatifs révèle un changement de paradigme notable : contrairement à la « dominance textuelle » des modèles visio-linguistiques traditionnels, la plupart des OLLM présentent une préférence visuelle prononcée. Pour mieux comprendre le mécanisme sous-jacent, nous réalisons une analyse par couches et démontrons que cette préférence modale n'est pas statique mais émerge progressivement dans les couches intermédiaires à tardives. En nous appuyant sur ces insights, nous exploitons ces signaux internes pour diagnostiquer les hallucinations cross-modales, obtenant des performances compétitives sur trois benchmarks multimodaux en aval sans données spécifiques aux tâches. Notre travail offre à la fois une compréhension mécanistique et un outil pratique pour construire des OLLM plus dignes de confiance. Notre code et les ressources associées sont disponibles publiquement à l'adresse : https://github.com/icip-cas/OmniPreference

English

Native Omni-modal Large Language Models (OLLMs) have shifted from pipeline architectures to unified representation spaces. However, this native integration gives rise to a critical yet underexplored phenomenon: modality preference. To bridge this gap, we first systematically quantify modality preference of OLLMs using a newly-curated conflict-based benchmark and the modality selection rate metric. Our evaluation of ten representative OLLMs reveals a notable paradigm shift: unlike the ``text-dominance'' of traditional VLMs, most OLLMs exhibit a pronounced visual preference. To further understand the underlying mechanism, we conduct layer-wise probing and demonstrate that such modality preference is not static but emerges progressively in the mid-to-late layers. Building upon these insights, we leverage these internal signals to diagnose cross-modal hallucinations, achieving competitive performance across three downstream multi-modal benchmarks without task-specific data. Our work provides both a mechanistic understanding and a practical tool for building more trustworthy OLLMs. Our code and related resources are publicly available at: https://github.com/icip-cas/OmniPreference

Au-delà de la domination du texte : Comprendre les préférences modales des modèles de langage omnimodaux

Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Résumé

Support