Jenseits der Textdominanz: Verständnis der Modalitätspräferenz omni-modaler großer Sprachmodelle

Zusammenfassung

Native Omni-modale Large Language Models (OLLMs) haben sich von Pipeline-Architekturen zu einheitlichen Repräsentationsräumen weiterentwickelt. Diese native Integration führt jedoch zu einem kritischen, aber bisher wenig erforschten Phänomen: der Modalitätspräferenz. Um diese Lücke zu schließen, quantifizieren wir zunächst systematisch die Modalitätspräferenz von OLLMs anhand eines neu erstellten konfliktbasierten Benchmarks und der Metrik der Modalitätsauswahlrate. Unsere Auswertung von zehn repräsentativen OLLMs zeigt einen bemerkenswerten Paradigmenwechsel: Im Gegensatz zur „Text-Dominanz“ traditioneller VLMs weisen die meisten OLLMs eine ausgeprägte visuelle Präferenz auf. Um die zugrundeliegenden Mechanismen besser zu verstehen, führen wir Layer-weite Analysen durch und zeigen, dass diese Modalitätspräferenz nicht statisch ist, sondern sich progressiv in den mittleren bis späten Schichten herausbildet. Aufbauend auf diesen Erkenntnissen nutzen wir diese internen Signale zur Diagnose cross-modaler Halluzinationen und erzielen wettbewerbsfähige Leistungen in drei nachgelagerten multimodalen Benchmarks ohne aufgabenspezifische Daten. Unsere Arbeit liefert sowohl ein mechanistisches Verständnis als auch ein praktisches Werkzeug für die Entwicklung vertrauenswürdigerer OLLMs. Unser Code und zugehörige Ressourcen sind öffentlich verfügbar unter: https://github.com/icip-cas/OmniPreference.

English

Native Omni-modal Large Language Models (OLLMs) have shifted from pipeline architectures to unified representation spaces. However, this native integration gives rise to a critical yet underexplored phenomenon: modality preference. To bridge this gap, we first systematically quantify modality preference of OLLMs using a newly-curated conflict-based benchmark and the modality selection rate metric. Our evaluation of ten representative OLLMs reveals a notable paradigm shift: unlike the ``text-dominance'' of traditional VLMs, most OLLMs exhibit a pronounced visual preference. To further understand the underlying mechanism, we conduct layer-wise probing and demonstrate that such modality preference is not static but emerges progressively in the mid-to-late layers. Building upon these insights, we leverage these internal signals to diagnose cross-modal hallucinations, achieving competitive performance across three downstream multi-modal benchmarks without task-specific data. Our work provides both a mechanistic understanding and a practical tool for building more trustworthy OLLMs. Our code and related resources are publicly available at: https://github.com/icip-cas/OmniPreference

Jenseits der Textdominanz: Verständnis der Modalitätspräferenz omni-modaler großer Sprachmodelle

Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Zusammenfassung

Support