Quando le modalità entrano in conflitto: come l’incertezza del ragionamento unimodale governa la dinamica delle preferenze nei MLLM

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) devono risolvere i conflitti quando diverse modalità forniscono informazioni contraddittorie, un processo che definiamo "modality following" (seguire la modalità). I lavori precedenti hanno misurato questo comportamento solo con statistiche grossolane a livello di dataset, trascurando l'influenza della fiducia del modello nel ragionamento unimodale. In questo articolo, introduciamo un nuovo framework che scompone il "modality following" in due fattori fondamentali: l'incertezza relativa del ragionamento (il divario di fiducia specifico per caso tra le previsioni unimodali) e la preferenza modale intrinseca (un bias stabile del modello quando le incertezze sono bilanciate). Per convalidare questo framework, costruiamo un dataset controllabile che varia sistematicamente la difficoltà di ragionamento degli input visivi e testuali. Utilizzando l'entropia come metrica di incertezza granulare, scopriamo una legge universale: la probabilità di seguire una modalità diminuisce monotonicamente all'aumentare della sua incertezza relativa. Al livello di difficoltà relativa in cui il modello tende a seguire entrambe le modalità con probabilità comparabile – ciò che chiamiamo punto di equilibrio – troviamo un indicatore pratico della preferenza intrinseca del modello. A differenza dei rapporti macro tradizionali, questa misura offre un modo più rigoroso e meno confuso per caratterizzare il bias modale, separandolo dalle capacità unimodali e dagli artefatti del dataset. Inoltre, sondando le previsioni strato per strato, riveliamo il meccanismo interno dell'oscillazione: nelle regioni ambigue vicino al punto di equilibrio, i modelli oscillano tra le modalità attraverso gli strati, spiegando l'indecisione osservata esternamente. Insieme, questi risultati stabiliscono l'incertezza relativa e la preferenza intrinseca come i due principi che governano il "modality following", offrendo sia un framework quantitativo che una comprensione meccanicistica di come gli MLLM risolvono le informazioni conflittuali.

English

Multimodal large language models (MLLMs) must resolve conflicts when different modalities provide contradictory information, a process we term modality following. Prior work measured this behavior only with coarse dataset-level statistics, overlooking the influence of model's confidence in unimodal reasoning. In this paper, we introduce a new framework that decomposes modality following into two fundamental factors: relative reasoning uncertainty (the case-specific confidence gap between unimodal predictions) and inherent modality preference( a model's stable bias when uncertainties are balanced). To validate this framework, we construct a controllable dataset that systematically varies the reasoning difficulty of visual and textual inputs. Using entropy as a fine-grained uncertainty metric, we uncover a universal law: the probability of following a modality decreases monotonically as its relative uncertainty increases. At the relative difficulty level where the model tends to follow both modalities with comparable probability what we call the balance point, a practical indicator of the model's inherent preference. Unlike traditional macro-level ratios, this measure offers a more principled and less confounded way to characterize modality bias, disentangling it from unimodal capabilities and dataset artifacts. Further, by probing layer-wise predictions, we reveal the internal mechanism of oscillation: in ambiguous regions near the balance point, models vacillate between modalities across layers, explaining externally observed indecision. Together, these findings establish relative uncertainty and inherent preference as the two governing principles of modality following, offering both a quantitative framework and mechanistic insight into how MLLMs resolve conflicting information.

Quando le modalità entrano in conflitto: come l’incertezza del ragionamento unimodale governa la dinamica delle preferenze nei MLLM

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

Abstract

Support