Anclajes de Instrucción: Diseccionando la Dinámica Causal de la Arbitración de Modalidad
Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration
February 3, 2026
Autores: Yu Zhang, Mufan Xu, Xuefeng Bai, Kehai chen, Pengfei Zhang, Yang Xiang, Min Zhang
cs.AI
Resumen
La capacidad de seguimiento modal se refiere a la habilidad de los modelos de lenguaje grandes multimodales (MLLMs, por sus siglas en inglés) para utilizar selectivamente contextos multimodales según las instrucciones del usuario. Esta capacidad es fundamental para garantizar la seguridad y confiabilidad en implementaciones del mundo real. Sin embargo, los mecanismos subyacentes que gobiernan este proceso de toma de decisiones siguen siendo poco comprendidos. En este artículo, investigamos su mecanismo de funcionamiento a través de la lente del flujo de información. Nuestros hallazgos revelan que los tokens de instrucción funcionan como anclajes estructurales para la arbitración modal: las capas de atención superficiales realizan una transferencia de información no selectiva, enrutando señales multimodales hacia estos anclajes como un búfer latente; la competencia modal se resuelve dentro de las capas de atención profundas guiadas por la intención de la instrucción, mientras que las capas MLP exhiben inercia semántica, actuando como una fuerza adversaria. Además, identificamos un conjunto disperso de cabezas de atención especializadas que impulsan esta arbitración. Las intervenciones causales demuestran que manipular solo un 5% de estas cabezas críticas puede disminuir la tasa de seguimiento modal en un 60% mediante bloqueo, o aumentarla en un 60% mediante la amplificación dirigida de muestras fallidas. Nuestro trabajo representa un avance sustancial hacia la transparencia del modelo y ofrece un marco fundamentado para la orquestación de información multimodal en los MLLMs.
English
Modality following serves as the capacity of multimodal large language models (MLLMs) to selectively utilize multimodal contexts based on user instructions. It is fundamental to ensuring safety and reliability in real-world deployments. However, the underlying mechanisms governing this decision-making process remain poorly understood. In this paper, we investigate its working mechanism through an information flow lens. Our findings reveal that instruction tokens function as structural anchors for modality arbitration: Shallow attention layers perform non-selective information transfer, routing multimodal cues to these anchors as a latent buffer; Modality competition is resolved within deep attention layers guided by the instruction intent, while MLP layers exhibit semantic inertia, acting as an adversarial force. Furthermore, we identify a sparse set of specialized attention heads that drive this arbitration. Causal interventions demonstrate that manipulating a mere 5% of these critical heads can decrease the modality-following ratio by 60% through blocking, or increase it by 60% through targeted amplification of failed samples. Our work provides a substantial step toward model transparency and offers a principled framework for the orchestration of multimodal information in MLLMs.