Wenn Modalitäten im Konflikt liegen: Wie unimodale Unsicherheiten die Präferenzdynamik in multimodalen großen Sprachmodellen steuern
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
November 4, 2025
papers.authors: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) müssen Konflikte auflösen, wenn verschiedene Modalitäten widersprüchliche Informationen liefern – einen Prozess, den wir als Modalitätsfolge bezeichnen. Bisherige Arbeiten maßen dieses Verhalten nur mit groben, datensatzweiten Statistiken und übersahen dabei den Einfluss des Modellvertrauens in unimodales Schlussfolgern. In diesem Artikel stellen wir einen neuen Rahmen vor, der Modalitätsfolge in zwei grundlegende Faktoren zerlegt: relative Schlussfolgerungsunsicherheit (der fall spezifische Vertrauensabstand zwischen unimodalen Vorhersagen) und inhärente Modalitätspräferenz (eine stabile Verzerrung eines Modells bei ausgeglichenen Unsicherheiten). Um diesen Rahmen zu validieren, konstruieren wir einen kontrollierbaren Datensatz, der die Schwierigkeit des visuellen und textuellen Schlussfolgerns systematisch variiert. Unter Verwendung von Entropie als feinkörniges Unsicherheitsmaß entdecken wir ein universelles Gesetz: Die Wahrscheinlichkeit, einer Modalität zu folgen, nimmt monoton ab, wenn ihre relative Unsicherheit zunimmt. Auf der relativen Schwierigkeitsstufe, bei der das Modell dazu neigt, beiden Modalitäten mit vergleichbarer Wahrscheinlichkeit zu folgen – was wir als Gleichgewichtspunkt bezeichnen –, zeigt sich ein praktischer Indikator für die inhärente Präferenz des Modells. Im Gegensatz zu traditionellen Makro-Verhältnissen bietet dieses Maß eine prinzipiellere und weniger konfundierte Möglichkeit, die Modalitätsverzerrung zu charakterisieren, indem es diese von unimodalen Fähigkeiten und Datensatzartefakten entkoppelt. Durch die Untersuchung von Vorhersagen auf verschiedenen Modellschichten zeigen wir zudem den internen Mechanismus der Oszillation auf: In mehrdeutigen Bereichen nahe dem Gleichgewichtspunkt schwanken Modelle zwischen den Modalitäten über die Schichten hinweg, was die extern beobachtete Unentschlossenheit erklärt. Zusammengenommen etablieren diese Erkenntnisse relative Unsicherheit und inhärente Präferenz als die beiden bestimmenden Prinzipien der Modalitätsfolge und bieten sowohl einen quantitativen Rahmen als auch mechanistische Einblicke darin, wie MLLMs widersprüchliche Informationen auflösen.
English
Multimodal large language models (MLLMs) must resolve conflicts when
different modalities provide contradictory information, a process we term
modality following. Prior work measured this behavior only with coarse
dataset-level statistics, overlooking the influence of model's confidence in
unimodal reasoning. In this paper, we introduce a new framework that decomposes
modality following into two fundamental factors: relative reasoning uncertainty
(the case-specific confidence gap between unimodal predictions) and inherent
modality preference( a model's stable bias when uncertainties are balanced). To
validate this framework, we construct a controllable dataset that
systematically varies the reasoning difficulty of visual and textual inputs.
Using entropy as a fine-grained uncertainty metric, we uncover a universal law:
the probability of following a modality decreases monotonically as its relative
uncertainty increases. At the relative difficulty level where the model tends
to follow both modalities with comparable probability what we call the balance
point, a practical indicator of the model's inherent preference. Unlike
traditional macro-level ratios, this measure offers a more principled and less
confounded way to characterize modality bias, disentangling it from unimodal
capabilities and dataset artifacts. Further, by probing layer-wise predictions,
we reveal the internal mechanism of oscillation: in ambiguous regions near the
balance point, models vacillate between modalities across layers, explaining
externally observed indecision. Together, these findings establish relative
uncertainty and inherent preference as the two governing principles of modality
following, offering both a quantitative framework and mechanistic insight into
how MLLMs resolve conflicting information.