ChatPaper.aiChatPaper

モダリティが衝突するとき:MLLMにおける選好ダイナミクスを支配する単一モダリティ推論の不確実性

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

November 4, 2025
著者: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、異なるモダリティが矛盾する情報を提供する際の衝突を解決する必要があり、この過程を我々は「モダリティ追従」と呼ぶ。従来の研究ではこの振る舞いを粗いデータセットレベルの統計でのみ測定しており、単モダリティ推論におけるモデルの信頼度の影響を見落としていた。本論文では、モダリティ追従を二つの基本要素に分解する新しい枠組みを提案する:相対的推論不確実性(単モダリティ予測間の事例特異的な信頼度差)と内在的モダリティ選好(不確実性が均衡している場合のモデルの安定したバイアス)である。この枠組みを検証するため、視覚入力とテキスト入力の推論難易度を体系的に変化させる制御可能なデータセットを構築した。エントロピーを細粒度の不確実性指標として用いることで、普遍的な法則を明らかにした:モダリティを追従する確率は、その相対的不確実性が増加するにつれて単調減少する。両方のモダリティを同等の確率で追従する傾向がある相対的難易度レベル(我々が均衡点と呼ぶもの)は、モデルの内在的選好の実用的な指標となる。従来のマクロレベル比率とは異なり、この測定方法は、単モダリティ能力やデータセットの人為的要素から切り離された、より原理的で交絡の少ないモダリティバイアスの特徴付けを可能にする。さらに、層ごとの予測を調査することで、振動の内部メカニズムを明らかにした:均衡点近傍の曖昧な領域では、モデルは層を跨いでモダリティ間で揺れ動き、外部的に観測される優柔不断さを説明する。これらの発見は総合して、相対的不確実性と内在的選好がモダリティ追従を支配する二大原理であることを立証し、MLLMが矛盾する情報を如何に解決するかについて、定量的枠組みと機構的知見の両方を提供する。
English
Multimodal large language models (MLLMs) must resolve conflicts when different modalities provide contradictory information, a process we term modality following. Prior work measured this behavior only with coarse dataset-level statistics, overlooking the influence of model's confidence in unimodal reasoning. In this paper, we introduce a new framework that decomposes modality following into two fundamental factors: relative reasoning uncertainty (the case-specific confidence gap between unimodal predictions) and inherent modality preference( a model's stable bias when uncertainties are balanced). To validate this framework, we construct a controllable dataset that systematically varies the reasoning difficulty of visual and textual inputs. Using entropy as a fine-grained uncertainty metric, we uncover a universal law: the probability of following a modality decreases monotonically as its relative uncertainty increases. At the relative difficulty level where the model tends to follow both modalities with comparable probability what we call the balance point, a practical indicator of the model's inherent preference. Unlike traditional macro-level ratios, this measure offers a more principled and less confounded way to characterize modality bias, disentangling it from unimodal capabilities and dataset artifacts. Further, by probing layer-wise predictions, we reveal the internal mechanism of oscillation: in ambiguous regions near the balance point, models vacillate between modalities across layers, explaining externally observed indecision. Together, these findings establish relative uncertainty and inherent preference as the two governing principles of modality following, offering both a quantitative framework and mechanistic insight into how MLLMs resolve conflicting information.
PDF241December 2, 2025