Wanneer modaliteiten botsen: Hoe unimodale redeneeronzekerheid de voorkeursdynamiek in MLLM's bepaalt
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
November 4, 2025
Auteurs: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
cs.AI
Samenvatting
Multimodale grote taalmmodellen (MLLM's) moeten conflicten oplossen wanneer verschillende modaliteiten tegenstrijdige informatie verschaffen, een proces dat wij *modaliteitsvolging* noemen. Eerder werk mat dit gedrag alleen met grove, dataset-brede statistieken, waarbij de invloed van het modelvertrouwen in unimodale redenering over het hoofd werd gezien. In dit artikel introduceren we een nieuw kader dat modaliteitsvolging opdeelt in twee fundamentele factoren: relatieve redeneeronzekerheid (het casusspecifieke vertrouwensverschil tussen unimodale voorspellingen) en inherente modaliteitsvoorkeur (een stabiele vooringenomenheid van het model wanneer de onzekerheden in evenwicht zijn).
Om dit kader te valideren, construeren we een beheersbare dataset die de redeneermoeilijkheid van visuele en tekstuele invoer systematisch varieert. Met behulp van entropie als een fijnmazige onzekerheidsmetriek ontdekken we een universele wet: de waarschijnlijkheid om een modaliteit te volgen neemt monotoon af naarmate de relatieve onzekerheid toeneemt. Op het relatieve moeilijkheidsniveau waar het model beide modaliteiten met vergelijkbare waarschijnlijkheid volgt – wat wij het *evenwichtspunt* noemen – vinden we een praktische indicator van de inherente voorkeur van het model. In tegenstelling tot traditionele macro-niveau ratio's biedt deze maatstaf een meer principiële en minder verstorende manier om modaliteitsvooringenomenheid te karakteriseren, losgekoppeld van unimodale capaciteiten en dataset-artefacten.
Verder onthullen we, door voorspellingen per laag te onderzoeken, het interne mechanisme van oscillatie: in dubbelzinnige regio's nabij het evenwichtspunt wisselen modellen tussen modaliteiten over de lagen heen, wat de extern waargenomen besluiteloosheid verklaart. Samen vestigen deze bevindingen relatieve onzekerheid en inherente voorkeur als de twee sturende principes van modaliteitsvolging, en bieden zij zowel een kwantitatief kader als mechanistisch inzicht in hoe MLLM's tegenstrijdige informatie oplossen.
English
Multimodal large language models (MLLMs) must resolve conflicts when
different modalities provide contradictory information, a process we term
modality following. Prior work measured this behavior only with coarse
dataset-level statistics, overlooking the influence of model's confidence in
unimodal reasoning. In this paper, we introduce a new framework that decomposes
modality following into two fundamental factors: relative reasoning uncertainty
(the case-specific confidence gap between unimodal predictions) and inherent
modality preference( a model's stable bias when uncertainties are balanced). To
validate this framework, we construct a controllable dataset that
systematically varies the reasoning difficulty of visual and textual inputs.
Using entropy as a fine-grained uncertainty metric, we uncover a universal law:
the probability of following a modality decreases monotonically as its relative
uncertainty increases. At the relative difficulty level where the model tends
to follow both modalities with comparable probability what we call the balance
point, a practical indicator of the model's inherent preference. Unlike
traditional macro-level ratios, this measure offers a more principled and less
confounded way to characterize modality bias, disentangling it from unimodal
capabilities and dataset artifacts. Further, by probing layer-wise predictions,
we reveal the internal mechanism of oscillation: in ambiguous regions near the
balance point, models vacillate between modalities across layers, explaining
externally observed indecision. Together, these findings establish relative
uncertainty and inherent preference as the two governing principles of modality
following, offering both a quantitative framework and mechanistic insight into
how MLLMs resolve conflicting information.