Quand les modalités entrent en conflit : Comment l'incertitude du raisonnement unimodal régit la dynamique des préférences dans les MLLM

papers.abstract

Les grands modèles linguistiques multimodaux (MLLM) doivent résoudre les conflits lorsque différentes modalités fournissent des informations contradictoires, un processus que nous nommons suivi modal. Les travaux antérieurs n'ont mesuré ce comportement qu'avec des statistiques grossières au niveau du jeu de données, négligeant l'influence de la confiance du modèle dans le raisonnement unimodal. Dans cet article, nous introduisons un nouveau cadre qui décompose le suivi modal en deux facteurs fondamentaux : l'incertitude relative du raisonnement (l'écart de confiance spécifique au cas entre les prédictions unimodales) et la préférence modale inhérente (un biais stable du modèle lorsque les incertitudes sont équilibrées). Pour valider ce cadre, nous construisons un jeu de données contrôlable qui fait varier systématiquement la difficulté de raisonnement des entrées visuelles et textuelles. En utilisant l'entropie comme métrique d'incertitude fine, nous découvrons une loi universelle : la probabilité de suivre une modalité diminue de manière monotone à mesure que son incertitude relative augmente. Au niveau de difficulté relative où le modèle a tendance à suivre les deux modalités avec une probabilité comparable – ce que nous appelons le point d'équilibre –, nous obtenons un indicateur pratique de la préférence inhérente du modèle. Contrairement aux ratios macroscopiques traditionnels, cette mesure offre une manière plus rigoureuse et moins biaisée de caractériser le parti pris modal, en le dissociant des capacités unimodales et des artéfacts du jeu de données. De plus, en sondant les prédictions couche par couche, nous révélons le mécanisme interne de l'oscillation : dans les régions ambiguës proches du point d'équilibre, les modèles oscillent entre les modalités à travers les couches, expliquant l'indécision observée extérieurement. Ensemble, ces résultats établissent l'incertitude relative et la préférence inhérente comme les deux principes régissant le suivi modal, offrant à la fois un cadre quantitatif et une perspective mécanistique sur la façon dont les MLLM résolvent les informations conflictuelles.

English

Multimodal large language models (MLLMs) must resolve conflicts when different modalities provide contradictory information, a process we term modality following. Prior work measured this behavior only with coarse dataset-level statistics, overlooking the influence of model's confidence in unimodal reasoning. In this paper, we introduce a new framework that decomposes modality following into two fundamental factors: relative reasoning uncertainty (the case-specific confidence gap between unimodal predictions) and inherent modality preference( a model's stable bias when uncertainties are balanced). To validate this framework, we construct a controllable dataset that systematically varies the reasoning difficulty of visual and textual inputs. Using entropy as a fine-grained uncertainty metric, we uncover a universal law: the probability of following a modality decreases monotonically as its relative uncertainty increases. At the relative difficulty level where the model tends to follow both modalities with comparable probability what we call the balance point, a practical indicator of the model's inherent preference. Unlike traditional macro-level ratios, this measure offers a more principled and less confounded way to characterize modality bias, disentangling it from unimodal capabilities and dataset artifacts. Further, by probing layer-wise predictions, we reveal the internal mechanism of oscillation: in ambiguous regions near the balance point, models vacillate between modalities across layers, explaining externally observed indecision. Together, these findings establish relative uncertainty and inherent preference as the two governing principles of modality following, offering both a quantitative framework and mechanistic insight into how MLLMs resolve conflicting information.

Quand les modalités entrent en conflit : Comment l'incertitude du raisonnement unimodal régit la dynamique des préférences dans les MLLM

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

papers.abstract

Support