Quand les modalités entrent en conflit : Comment l'incertitude du raisonnement unimodal régit la dynamique des préférences dans les MLLM
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
November 4, 2025
papers.authors: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
cs.AI
papers.abstract
Les grands modèles linguistiques multimodaux (MLLM) doivent résoudre les conflits lorsque différentes modalités fournissent des informations contradictoires, un processus que nous nommons suivi modal. Les travaux antérieurs n'ont mesuré ce comportement qu'avec des statistiques grossières au niveau du jeu de données, négligeant l'influence de la confiance du modèle dans le raisonnement unimodal. Dans cet article, nous introduisons un nouveau cadre qui décompose le suivi modal en deux facteurs fondamentaux : l'incertitude relative du raisonnement (l'écart de confiance spécifique au cas entre les prédictions unimodales) et la préférence modale inhérente (un biais stable du modèle lorsque les incertitudes sont équilibrées). Pour valider ce cadre, nous construisons un jeu de données contrôlable qui fait varier systématiquement la difficulté de raisonnement des entrées visuelles et textuelles. En utilisant l'entropie comme métrique d'incertitude fine, nous découvrons une loi universelle : la probabilité de suivre une modalité diminue de manière monotone à mesure que son incertitude relative augmente. Au niveau de difficulté relative où le modèle a tendance à suivre les deux modalités avec une probabilité comparable – ce que nous appelons le point d'équilibre –, nous obtenons un indicateur pratique de la préférence inhérente du modèle. Contrairement aux ratios macroscopiques traditionnels, cette mesure offre une manière plus rigoureuse et moins biaisée de caractériser le parti pris modal, en le dissociant des capacités unimodales et des artéfacts du jeu de données. De plus, en sondant les prédictions couche par couche, nous révélons le mécanisme interne de l'oscillation : dans les régions ambiguës proches du point d'équilibre, les modèles oscillent entre les modalités à travers les couches, expliquant l'indécision observée extérieurement. Ensemble, ces résultats établissent l'incertitude relative et la préférence inhérente comme les deux principes régissant le suivi modal, offrant à la fois un cadre quantitatif et une perspective mécanistique sur la façon dont les MLLM résolvent les informations conflictuelles.
English
Multimodal large language models (MLLMs) must resolve conflicts when
different modalities provide contradictory information, a process we term
modality following. Prior work measured this behavior only with coarse
dataset-level statistics, overlooking the influence of model's confidence in
unimodal reasoning. In this paper, we introduce a new framework that decomposes
modality following into two fundamental factors: relative reasoning uncertainty
(the case-specific confidence gap between unimodal predictions) and inherent
modality preference( a model's stable bias when uncertainties are balanced). To
validate this framework, we construct a controllable dataset that
systematically varies the reasoning difficulty of visual and textual inputs.
Using entropy as a fine-grained uncertainty metric, we uncover a universal law:
the probability of following a modality decreases monotonically as its relative
uncertainty increases. At the relative difficulty level where the model tends
to follow both modalities with comparable probability what we call the balance
point, a practical indicator of the model's inherent preference. Unlike
traditional macro-level ratios, this measure offers a more principled and less
confounded way to characterize modality bias, disentangling it from unimodal
capabilities and dataset artifacts. Further, by probing layer-wise predictions,
we reveal the internal mechanism of oscillation: in ambiguous regions near the
balance point, models vacillate between modalities across layers, explaining
externally observed indecision. Together, these findings establish relative
uncertainty and inherent preference as the two governing principles of modality
following, offering both a quantitative framework and mechanistic insight into
how MLLMs resolve conflicting information.