Oltre la predominanza del testo: comprendere le preferenze modelli degli LLM onni-modali

Abstract

I modelli linguistici di grandi dimensioni nativi omnimodali (OLLM) hanno abbandonato le architetture a pipeline a favore di spazi di rappresentazione unificati. Tuttavia, questa integrazione nativa dà origine a un fenomeno cruciale ma poco esplorato: la preferenza modale. Per colmare questa lacuna, abbiamo prima quantificato sistematicamente la preferenza modale degli OLLM utilizzando un benchmark conflittuale di nuova creazione e la metrica del tasso di selezione modale. La nostra valutazione di dieci OLLM rappresentativi rivela un notevole cambiamento di paradigma: a differenza della "dominanza testuale" dei tradizionali VLM, la maggior parte degli OLLM mostra una marcata preferenza visiva. Per comprendere meglio il meccanismo sottostante, abbiamo condotto analisi stratificate che dimostrano come tale preferenza modale non sia statica ma emerga progressivamente negli strati intermedi e finali. Basandoci su queste intuizioni, sfruttiamo questi segnali interni per diagnosticare allucinazioni cross-modali, raggiungendo prestazioni competitive su tre benchmark multimodali downstream senza dati specifici per il compito. Il nostro lavoro fornisce sia una comprensione meccanicistica sia uno strumento pratico per costruire OLLM più affidabili. Il nostro codice e le risorse correlate sono pubblicamente disponibili all'indirizzo: https://github.com/icip-cas/OmniPreference

English

Native Omni-modal Large Language Models (OLLMs) have shifted from pipeline architectures to unified representation spaces. However, this native integration gives rise to a critical yet underexplored phenomenon: modality preference. To bridge this gap, we first systematically quantify modality preference of OLLMs using a newly-curated conflict-based benchmark and the modality selection rate metric. Our evaluation of ten representative OLLMs reveals a notable paradigm shift: unlike the ``text-dominance'' of traditional VLMs, most OLLMs exhibit a pronounced visual preference. To further understand the underlying mechanism, we conduct layer-wise probing and demonstrate that such modality preference is not static but emerges progressively in the mid-to-late layers. Building upon these insights, we leverage these internal signals to diagnose cross-modal hallucinations, achieving competitive performance across three downstream multi-modal benchmarks without task-specific data. Our work provides both a mechanistic understanding and a practical tool for building more trustworthy OLLMs. Our code and related resources are publicly available at: https://github.com/icip-cas/OmniPreference

Oltre la predominanza del testo: comprendere le preferenze modelli degli LLM onni-modali

Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Abstract

Support