Quando as Modalidades Entram em Conflito: Como a Incerteza do Raciocínio Unimodal Governa a Dinâmica de Preferências em MLLMs
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
November 4, 2025
Autores: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
cs.AI
Resumo
Os modelos de linguagem grandes multimodais (MLLMs) devem resolver conflitos quando diferentes modalidades fornecem informações contraditórias, um processo que denominamos de seguimento de modalidade. Trabalhos anteriores mediram este comportamento apenas com estatísticas grosseiras a nível de conjunto de dados, negligenciando a influência da confiança do modelo no raciocínio unimodal. Neste artigo, introduzimos um novo quadro conceptual que decompõe o seguimento de modalidade em dois fatores fundamentais: a incerteza relativa do raciocínio (o diferencial de confiança específico do caso entre as previsões unimodais) e a preferência modal inerente (um viés estável do modelo quando as incertezas estão equilibradas). Para validar este quadro, construímos um conjunto de dados controlável que varia sistematicamente a dificuldade de raciocínio dos inputs visuais e textuais. Utilizando a entropia como uma métrica de incerteza de granularidade fina, descobrimos uma lei universal: a probabilidade de seguir uma modalidade diminui monotonicamente à medida que a sua incerteza relativa aumenta. No nível de dificuldade relativa em que o modelo tende a seguir ambas as modalidades com probabilidade comparável – o que chamamos de ponto de equilíbrio –, encontramos um indicador prático da preferência inerente do modelo. Ao contrário das razões macro tradicionais, esta medida oferece uma forma mais fundamentada e menos confundida de caracterizar o viés modal, separando-o das capacidades unimodais e de artefactos do conjunto de dados. Adicionalmente, ao sondar previsões por camadas, revelamos o mecanismo interno de oscilação: em regiões ambíguas próximas do ponto de equilíbrio, os modelos vacilam entre modalidades ao longo das camadas, explicando a indecisão observada externamente. Em conjunto, estes resultados estabelecem a incerteza relativa e a preferência inerente como os dois princípios regentes do seguimento de modalidade, oferecendo tanto um quadro quantitativo como uma perceção mecanicista de como os MLLMs resolvem informações conflituosas.
English
Multimodal large language models (MLLMs) must resolve conflicts when
different modalities provide contradictory information, a process we term
modality following. Prior work measured this behavior only with coarse
dataset-level statistics, overlooking the influence of model's confidence in
unimodal reasoning. In this paper, we introduce a new framework that decomposes
modality following into two fundamental factors: relative reasoning uncertainty
(the case-specific confidence gap between unimodal predictions) and inherent
modality preference( a model's stable bias when uncertainties are balanced). To
validate this framework, we construct a controllable dataset that
systematically varies the reasoning difficulty of visual and textual inputs.
Using entropy as a fine-grained uncertainty metric, we uncover a universal law:
the probability of following a modality decreases monotonically as its relative
uncertainty increases. At the relative difficulty level where the model tends
to follow both modalities with comparable probability what we call the balance
point, a practical indicator of the model's inherent preference. Unlike
traditional macro-level ratios, this measure offers a more principled and less
confounded way to characterize modality bias, disentangling it from unimodal
capabilities and dataset artifacts. Further, by probing layer-wise predictions,
we reveal the internal mechanism of oscillation: in ambiguous regions near the
balance point, models vacillate between modalities across layers, explaining
externally observed indecision. Together, these findings establish relative
uncertainty and inherent preference as the two governing principles of modality
following, offering both a quantitative framework and mechanistic insight into
how MLLMs resolve conflicting information.