Instructie-Ankers: Een Ontleding van de Causale Dynamiek van Modaliteitsarbitrage
Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration
February 3, 2026
Auteurs: Yu Zhang, Mufan Xu, Xuefeng Bai, Kehai chen, Pengfei Zhang, Yang Xiang, Min Zhang
cs.AI
Samenvatting
Modaliteitsvolging is het vermogen van multimodale grote taalmodellen (MLLMs) om multimodale contexten selectief te benutten op basis van gebruikersinstructies. Dit vermogen is fundamenteel voor het waarborgen van veiligheid en betrouwbaarheid in praktijktoepassingen. De onderliggende mechanismen die dit besluitvormingsproces sturen, zijn echter nog grotendeels onbegrepen. In dit artikel onderzoeken we het werkingsmechanisme door de lens van informatiestromen. Onze bevindingen onthullen dat instructietokens functioneren als structurele ankers voor modaliteitsarbitrage: Oppervlakkige aandachtslagen voeren een niet-selectieve informatieoverdracht uit en leiden multimodale signalen naar deze ankers als een latente buffer; Modaliteitscompetitie wordt opgelost in diepe aandachtslagen, geleid door de intentie van de instructie, terwijl MLP-lagen semantische inertie vertonen en als een tegenwerkende kracht optreden. Verder identificeren we een beperkte set gespecialiseerde aandachtshoofden die deze arbitrage aandrijven. Causale interventies tonen aan dat het manipuleren van slechts 5% van deze kritieke hoofden de modaliteitsvolgratio met 60% kan verlagen door blokkering, of met 60% kan verhogen door gerichte amplificatie van mislukte voorbeelden. Ons werk vormt een significante stap richting modeltransparantie en biedt een principieel kader voor de orchestratie van multimodale informatie in MLLMs.
English
Modality following serves as the capacity of multimodal large language models (MLLMs) to selectively utilize multimodal contexts based on user instructions. It is fundamental to ensuring safety and reliability in real-world deployments. However, the underlying mechanisms governing this decision-making process remain poorly understood. In this paper, we investigate its working mechanism through an information flow lens. Our findings reveal that instruction tokens function as structural anchors for modality arbitration: Shallow attention layers perform non-selective information transfer, routing multimodal cues to these anchors as a latent buffer; Modality competition is resolved within deep attention layers guided by the instruction intent, while MLP layers exhibit semantic inertia, acting as an adversarial force. Furthermore, we identify a sparse set of specialized attention heads that drive this arbitration. Causal interventions demonstrate that manipulating a mere 5% of these critical heads can decrease the modality-following ratio by 60% through blocking, or increase it by 60% through targeted amplification of failed samples. Our work provides a substantial step toward model transparency and offers a principled framework for the orchestration of multimodal information in MLLMs.