Ankerpunkte der Instruktion: Eine Dissektion der kausalen Dynamik von Modalitätsarbitrierung
Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration
February 3, 2026
papers.authors: Yu Zhang, Mufan Xu, Xuefeng Bai, Kehai chen, Pengfei Zhang, Yang Xiang, Min Zhang
cs.AI
papers.abstract
Modality Following beschreibt die Fähigkeit multimodaler Großsprachmodelle (MLLMs), multimodale Kontexte selektiv auf der Grundlage von Benutzeranweisungen zu nutzen. Diese Fähigkeit ist grundlegend für die Sicherheit und Zuverlässigkeit von MLLMs in realen Anwendungsszenarien. Die zugrundeliegenden Mechanismen dieses Entscheidungsprozesses sind jedoch noch weitgehend unverstanden. In dieser Arbeit untersuchen wir seinen Wirkmechanismus durch die Linse des Informationsflusses. Unsere Ergebnisse zeigen, dass Instruktionstoken als strukturelle Anker für die Modalitätsarbitrierung fungieren: Flache Aufmerksamkeitsschichten führen einen nicht-selektiven Informations transfer durch und leiten multimodale Hinweise zu diesen Ankern als latenten Puffer; Der Modalitätswettbewerb wird in tiefen Aufmerksamkeitsschichten unter Führung der Instruktionsabsicht aufgelöst, während MLP-Schichten semantische Trägheit aufweisen und als gegensätzliche Kraft wirken. Darüber hinaus identifizieren wir eine spärliche Menge spezialisierter Aufmerksamkeitsköpfe, die diese Arbitrierung antreiben. Kausale Interventionen zeigen, dass die Manipulation von nur 5 % dieser kritischen Köpfe die Modality-Following-Rate durch Blockierung um 60 % verringern oder sie durch gezielte Verstärkung fehlgeschlagener Proben um 60 % erhöhen kann. Unsere Arbeit stellt einen bedeutenden Schritt in Richtung Modelltransparenz dar und bietet einen prinzipienbasierten Rahmen für die Orchestrierung multimodaler Informationen in MLLMs.
English
Modality following serves as the capacity of multimodal large language models (MLLMs) to selectively utilize multimodal contexts based on user instructions. It is fundamental to ensuring safety and reliability in real-world deployments. However, the underlying mechanisms governing this decision-making process remain poorly understood. In this paper, we investigate its working mechanism through an information flow lens. Our findings reveal that instruction tokens function as structural anchors for modality arbitration: Shallow attention layers perform non-selective information transfer, routing multimodal cues to these anchors as a latent buffer; Modality competition is resolved within deep attention layers guided by the instruction intent, while MLP layers exhibit semantic inertia, acting as an adversarial force. Furthermore, we identify a sparse set of specialized attention heads that drive this arbitration. Causal interventions demonstrate that manipulating a mere 5% of these critical heads can decrease the modality-following ratio by 60% through blocking, or increase it by 60% through targeted amplification of failed samples. Our work provides a substantial step toward model transparency and offers a principled framework for the orchestration of multimodal information in MLLMs.