Quando le modalità entrano in conflitto: come l’incertezza del ragionamento unimodale governa la dinamica delle preferenze nei MLLM
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
November 4, 2025
Autori: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) devono risolvere i conflitti quando diverse modalità forniscono informazioni contraddittorie, un processo che definiamo "modality following" (seguire la modalità). I lavori precedenti hanno misurato questo comportamento solo con statistiche grossolane a livello di dataset, trascurando l'influenza della fiducia del modello nel ragionamento unimodale. In questo articolo, introduciamo un nuovo framework che scompone il "modality following" in due fattori fondamentali: l'incertezza relativa del ragionamento (il divario di fiducia specifico per caso tra le previsioni unimodali) e la preferenza modale intrinseca (un bias stabile del modello quando le incertezze sono bilanciate). Per convalidare questo framework, costruiamo un dataset controllabile che varia sistematicamente la difficoltà di ragionamento degli input visivi e testuali. Utilizzando l'entropia come metrica di incertezza granulare, scopriamo una legge universale: la probabilità di seguire una modalità diminuisce monotonicamente all'aumentare della sua incertezza relativa. Al livello di difficoltà relativa in cui il modello tende a seguire entrambe le modalità con probabilità comparabile – ciò che chiamiamo punto di equilibrio – troviamo un indicatore pratico della preferenza intrinseca del modello. A differenza dei rapporti macro tradizionali, questa misura offre un modo più rigoroso e meno confuso per caratterizzare il bias modale, separandolo dalle capacità unimodali e dagli artefatti del dataset. Inoltre, sondando le previsioni strato per strato, riveliamo il meccanismo interno dell'oscillazione: nelle regioni ambigue vicino al punto di equilibrio, i modelli oscillano tra le modalità attraverso gli strati, spiegando l'indecisione osservata esternamente. Insieme, questi risultati stabiliscono l'incertezza relativa e la preferenza intrinseca come i due principi che governano il "modality following", offrendo sia un framework quantitativo che una comprensione meccanicistica di come gli MLLM risolvono le informazioni conflittuali.
English
Multimodal large language models (MLLMs) must resolve conflicts when
different modalities provide contradictory information, a process we term
modality following. Prior work measured this behavior only with coarse
dataset-level statistics, overlooking the influence of model's confidence in
unimodal reasoning. In this paper, we introduce a new framework that decomposes
modality following into two fundamental factors: relative reasoning uncertainty
(the case-specific confidence gap between unimodal predictions) and inherent
modality preference( a model's stable bias when uncertainties are balanced). To
validate this framework, we construct a controllable dataset that
systematically varies the reasoning difficulty of visual and textual inputs.
Using entropy as a fine-grained uncertainty metric, we uncover a universal law:
the probability of following a modality decreases monotonically as its relative
uncertainty increases. At the relative difficulty level where the model tends
to follow both modalities with comparable probability what we call the balance
point, a practical indicator of the model's inherent preference. Unlike
traditional macro-level ratios, this measure offers a more principled and less
confounded way to characterize modality bias, disentangling it from unimodal
capabilities and dataset artifacts. Further, by probing layer-wise predictions,
we reveal the internal mechanism of oscillation: in ambiguous regions near the
balance point, models vacillate between modalities across layers, explaining
externally observed indecision. Together, these findings establish relative
uncertainty and inherent preference as the two governing principles of modality
following, offering both a quantitative framework and mechanistic insight into
how MLLMs resolve conflicting information.