Когда модальности конфликтуют: как неопределённость унимодального рассуждения управляет динамикой предпочтений в MLLM
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
November 4, 2025
Авторы: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) должны разрешать конфликты, когда различные модальности предоставляют противоречивую информацию — процесс, который мы называем следованием модальности. Предыдущие исследования измеряли это поведение лишь с помощью грубой статистики на уровне датасета, упуская из виду влияние уверенности модели в унимодальных рассуждениях. В данной статье мы представляем новую концепцию, которая разлагает следование модальности на два фундаментальных фактора: относительную неопределённость рассуждений (ситуационный разрыв в уверенности между унимодальными предсказаниями) и присущее предпочтение модальности (устойчивое смещение модели при сбалансированных неопределённостях). Для проверки этой концепции мы создаём управляемый датасет, который систематически варьирует сложность рассуждений для визуальных и текстовых входов. Используя энтропию как метрику неопределённости высокого разрешения, мы обнаруживаем универсальный закон: вероятность следования модальности монотонно уменьшается по мере роста её относительной неопределённости. На уровне относительной сложности, где модель с равной вероятностью склонна следовать обеим модальностям — что мы называем точкой баланса — проявляется практический индикатор присущего предпочтения модели. В отличие от традиционных макроуровневых соотношений, эта мера предлагает более принципиальный и менее смешанный способ характеристики модального смещения, отделяя его от унимодальных способностей и артефактов датасета. Кроме того, исследуя предсказания по слоям, мы раскрываем внутренний механизм колебаний: в неоднозначных областях вблизи точки баланса модель колеблется между модальностями от слоя к слою, что объясняет внешне наблюдаемую нерешительность. В совокупности эти результаты устанавливают относительную неопределённость и присущее предпочтение в качестве двух управляющих принципов следования модальности, предлагая как количественную основу, так и механистическое понимание того, как MLLM разрешают конфликтующую информацию.
English
Multimodal large language models (MLLMs) must resolve conflicts when
different modalities provide contradictory information, a process we term
modality following. Prior work measured this behavior only with coarse
dataset-level statistics, overlooking the influence of model's confidence in
unimodal reasoning. In this paper, we introduce a new framework that decomposes
modality following into two fundamental factors: relative reasoning uncertainty
(the case-specific confidence gap between unimodal predictions) and inherent
modality preference( a model's stable bias when uncertainties are balanced). To
validate this framework, we construct a controllable dataset that
systematically varies the reasoning difficulty of visual and textual inputs.
Using entropy as a fine-grained uncertainty metric, we uncover a universal law:
the probability of following a modality decreases monotonically as its relative
uncertainty increases. At the relative difficulty level where the model tends
to follow both modalities with comparable probability what we call the balance
point, a practical indicator of the model's inherent preference. Unlike
traditional macro-level ratios, this measure offers a more principled and less
confounded way to characterize modality bias, disentangling it from unimodal
capabilities and dataset artifacts. Further, by probing layer-wise predictions,
we reveal the internal mechanism of oscillation: in ambiguous regions near the
balance point, models vacillate between modalities across layers, explaining
externally observed indecision. Together, these findings establish relative
uncertainty and inherent preference as the two governing principles of modality
following, offering both a quantitative framework and mechanistic insight into
how MLLMs resolve conflicting information.