ChatPaper.aiChatPaper

Ancres d'Instruction : Disséquer la Dynamique Causale de l'Arbitrage des Modalités

Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration

February 3, 2026
papers.authors: Yu Zhang, Mufan Xu, Xuefeng Bai, Kehai chen, Pengfei Zhang, Yang Xiang, Min Zhang
cs.AI

papers.abstract

Le suivi de modalité désigne la capacité des modèles de langage multimodaux de grande taille (MLLM) à utiliser sélectivement les contextes multimodaux selon les instructions de l'utilisateur. Cette capacité est fondamentale pour garantir la sécurité et la fiabilité des déploiements en conditions réelles. Cependant, les mécanismes sous-jacents régissant ce processus décisionnel demeurent mal compris. Dans cet article, nous étudions son mécanisme de fonctionnement sous l'angle des flux d'information. Nos résultats révèlent que les tokens d'instruction fonctionnent comme des ancres structurelles pour l'arbitrage modalitaire : les couches d'attention superficielles effectuent un transfert d'information non sélectif, acheminant les indices multimodaux vers ces ancres sous forme de tampon latent ; la compétition modale est résolue dans les couches d'attention profondes guidées par l'intention de l'instruction, tandis que les couches MLP présentent une inertie sémantique, agissant comme une force antagoniste. De plus, nous identifions un ensemble restreint de têtes d'attention spécialisées qui pilotent cet arbitrage. Des interventions causales démontrent que la manipulation de seulement 5 % de ces têtes critiques peut réduire le taux de suivi modal de 60 % par blocage, ou l'augmenter de 60 % par amplification ciblée des échantillons défaillants. Notre travail constitue une avancée importante vers la transparence des modèles et propose un cadre principiel pour l'orchestration de l'information multimodale dans les MLLM.
English
Modality following serves as the capacity of multimodal large language models (MLLMs) to selectively utilize multimodal contexts based on user instructions. It is fundamental to ensuring safety and reliability in real-world deployments. However, the underlying mechanisms governing this decision-making process remain poorly understood. In this paper, we investigate its working mechanism through an information flow lens. Our findings reveal that instruction tokens function as structural anchors for modality arbitration: Shallow attention layers perform non-selective information transfer, routing multimodal cues to these anchors as a latent buffer; Modality competition is resolved within deep attention layers guided by the instruction intent, while MLP layers exhibit semantic inertia, acting as an adversarial force. Furthermore, we identify a sparse set of specialized attention heads that drive this arbitration. Causal interventions demonstrate that manipulating a mere 5% of these critical heads can decrease the modality-following ratio by 60% through blocking, or increase it by 60% through targeted amplification of failed samples. Our work provides a substantial step toward model transparency and offers a principled framework for the orchestration of multimodal information in MLLMs.
PDF51February 5, 2026