Cuando las modalidades entran en conflicto: Cómo la incertidumbre del razonamiento unimodal gobierna la dinámica de preferencias en los MLLM

Resumen

Los modelos lingüísticos multimodales de gran escala (MLLMs) deben resolver conflictos cuando diferentes modalidades proporcionan información contradictoria, un proceso que denominamos seguimiento de modalidad. Trabajos anteriores midieron este comportamiento únicamente con estadísticas generales a nivel de conjunto de datos, pasando por alto la influencia de la confianza del modelo en el razonamiento unimodal. En este artículo, presentamos un nuevo marco que descompone el seguimiento de modalidad en dos factores fundamentales: la incertidumbre relativa del razonamiento (la brecha de confianza específica del caso entre las predicciones unimodales) y la preferencia modal inherente (un sesgo estable del modelo cuando las incertidumbres están equilibradas). Para validar este marco, construimos un conjunto de datos controlable que varía sistemáticamente la dificultad de razonamiento de las entradas visuales y textuales. Utilizando la entropía como métrica de incertidumbre de grano fino, descubrimos una ley universal: la probabilidad de seguir una modalidad disminuye monótonamente a medida que su incertidumbre relativa aumenta. En el nivel de dificultad relativa donde el modelo tiende a seguir ambas modalidades con probabilidad comparable —lo que llamamos el punto de equilibrio— encontramos un indicador práctico de la preferencia inherente del modelo. A diferencia de las proporciones macro tradicionales, esta medida ofrece una forma más fundamentada y menos confundida de caracterizar el sesgo modal, desentrañándolo de las capacidades unimodales y los artefactos del conjunto de datos. Además, al sondear las predicciones capa por capa, revelamos el mecanismo interno de la oscilación: en regiones ambiguas cerca del punto de equilibrio, los modelos vacilan entre modalidades a lo largo de las capas, lo que explica la indecisión observada externamente. En conjunto, estos hallazgos establecen la incertidumbre relativa y la preferencia inherente como los dos principios rectores del seguimiento de modalidad, ofreciendo tanto un marco cuantitativo como una comprensión mecanicista de cómo los MLLMs resuelven información conflictiva.

English

Multimodal large language models (MLLMs) must resolve conflicts when different modalities provide contradictory information, a process we term modality following. Prior work measured this behavior only with coarse dataset-level statistics, overlooking the influence of model's confidence in unimodal reasoning. In this paper, we introduce a new framework that decomposes modality following into two fundamental factors: relative reasoning uncertainty (the case-specific confidence gap between unimodal predictions) and inherent modality preference( a model's stable bias when uncertainties are balanced). To validate this framework, we construct a controllable dataset that systematically varies the reasoning difficulty of visual and textual inputs. Using entropy as a fine-grained uncertainty metric, we uncover a universal law: the probability of following a modality decreases monotonically as its relative uncertainty increases. At the relative difficulty level where the model tends to follow both modalities with comparable probability what we call the balance point, a practical indicator of the model's inherent preference. Unlike traditional macro-level ratios, this measure offers a more principled and less confounded way to characterize modality bias, disentangling it from unimodal capabilities and dataset artifacts. Further, by probing layer-wise predictions, we reveal the internal mechanism of oscillation: in ambiguous regions near the balance point, models vacillate between modalities across layers, explaining externally observed indecision. Together, these findings establish relative uncertainty and inherent preference as the two governing principles of modality following, offering both a quantitative framework and mechanistic insight into how MLLMs resolve conflicting information.

Cuando las modalidades entran en conflicto: Cómo la incertidumbre del razonamiento unimodal gobierna la dinámica de preferencias en los MLLM

When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

Resumen

Support