Cuando las modalidades entran en conflicto: Cómo la incertidumbre del razonamiento unimodal gobierna la dinámica de preferencias en los MLLM
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
November 4, 2025
Autores: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
cs.AI
Resumen
Los modelos lingüísticos multimodales de gran escala (MLLMs) deben resolver conflictos cuando diferentes modalidades proporcionan información contradictoria, un proceso que denominamos seguimiento de modalidad. Trabajos anteriores midieron este comportamiento únicamente con estadísticas generales a nivel de conjunto de datos, pasando por alto la influencia de la confianza del modelo en el razonamiento unimodal. En este artículo, presentamos un nuevo marco que descompone el seguimiento de modalidad en dos factores fundamentales: la incertidumbre relativa del razonamiento (la brecha de confianza específica del caso entre las predicciones unimodales) y la preferencia modal inherente (un sesgo estable del modelo cuando las incertidumbres están equilibradas). Para validar este marco, construimos un conjunto de datos controlable que varía sistemáticamente la dificultad de razonamiento de las entradas visuales y textuales. Utilizando la entropía como métrica de incertidumbre de grano fino, descubrimos una ley universal: la probabilidad de seguir una modalidad disminuye monótonamente a medida que su incertidumbre relativa aumenta. En el nivel de dificultad relativa donde el modelo tiende a seguir ambas modalidades con probabilidad comparable —lo que llamamos el punto de equilibrio— encontramos un indicador práctico de la preferencia inherente del modelo. A diferencia de las proporciones macro tradicionales, esta medida ofrece una forma más fundamentada y menos confundida de caracterizar el sesgo modal, desentrañándolo de las capacidades unimodales y los artefactos del conjunto de datos. Además, al sondear las predicciones capa por capa, revelamos el mecanismo interno de la oscilación: en regiones ambiguas cerca del punto de equilibrio, los modelos vacilan entre modalidades a lo largo de las capas, lo que explica la indecisión observada externamente. En conjunto, estos hallazgos establecen la incertidumbre relativa y la preferencia inherente como los dos principios rectores del seguimiento de modalidad, ofreciendo tanto un marco cuantitativo como una comprensión mecanicista de cómo los MLLMs resuelven información conflictiva.
English
Multimodal large language models (MLLMs) must resolve conflicts when
different modalities provide contradictory information, a process we term
modality following. Prior work measured this behavior only with coarse
dataset-level statistics, overlooking the influence of model's confidence in
unimodal reasoning. In this paper, we introduce a new framework that decomposes
modality following into two fundamental factors: relative reasoning uncertainty
(the case-specific confidence gap between unimodal predictions) and inherent
modality preference( a model's stable bias when uncertainties are balanced). To
validate this framework, we construct a controllable dataset that
systematically varies the reasoning difficulty of visual and textual inputs.
Using entropy as a fine-grained uncertainty metric, we uncover a universal law:
the probability of following a modality decreases monotonically as its relative
uncertainty increases. At the relative difficulty level where the model tends
to follow both modalities with comparable probability what we call the balance
point, a practical indicator of the model's inherent preference. Unlike
traditional macro-level ratios, this measure offers a more principled and less
confounded way to characterize modality bias, disentangling it from unimodal
capabilities and dataset artifacts. Further, by probing layer-wise predictions,
we reveal the internal mechanism of oscillation: in ambiguous regions near the
balance point, models vacillate between modalities across layers, explaining
externally observed indecision. Together, these findings establish relative
uncertainty and inherent preference as the two governing principles of modality
following, offering both a quantitative framework and mechanistic insight into
how MLLMs resolve conflicting information.