Ancore di Istruzione: Dissezionare le Dinamiche Causali dell'Arbitraggio delle Modalità
Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration
February 3, 2026
Autori: Yu Zhang, Mufan Xu, Xuefeng Bai, Kehai chen, Pengfei Zhang, Yang Xiang, Min Zhang
cs.AI
Abstract
La capacità di seguire la modalità rappresenta l'abilità dei modelli linguistici multimodali di grandi dimensioni (MLLM) di utilizzare selettivamente i contesti multimodali in base alle istruzioni dell'utente. Questa capacità è fondamentale per garantire sicurezza e affidabilità nelle implementazioni nel mondo reale. Tuttavia, i meccanismi sottostanti che governano questo processo decisionale rimangono poco compresi. In questo articolo, ne investigiamo il meccanismo di funzionamento attraverso una lente del flusso informativo. Le nostre scoperte rivelano che i token di istruzione funzionano come ancore strutturali per l'arbitraggio delle modalità: gli strati di attenzione superficiali eseguono un trasferimento di informazioni non selettivo, instradando gli indizi multimodali verso queste ancore come un buffer latente; la competizione tra modalità viene risolta all'interno degli strati di attenzione profondi guidati dall'intento dell'istruzione, mentre gli strati MLP mostrano inerzia semantica, agendo come una forza avversaria. Inoltre, identifichiamo un insieme sparso di teste di attenzione specializzate che guidano questo arbitraggio. Interventi causali dimostrano che manipolare appena il 5% di queste teste critiche può ridurre il rapporto di aderenza alla modalità del 60% tramite blocco, o aumentarlo del 60% attraverso un'amplificazione mirata dei campioni falliti. Il nostro lavoro rappresenta un passo significativo verso la trasparenza del modello e offre una struttura basata su principi per l'orchestrazione delle informazioni multimodali negli MLLM.
English
Modality following serves as the capacity of multimodal large language models (MLLMs) to selectively utilize multimodal contexts based on user instructions. It is fundamental to ensuring safety and reliability in real-world deployments. However, the underlying mechanisms governing this decision-making process remain poorly understood. In this paper, we investigate its working mechanism through an information flow lens. Our findings reveal that instruction tokens function as structural anchors for modality arbitration: Shallow attention layers perform non-selective information transfer, routing multimodal cues to these anchors as a latent buffer; Modality competition is resolved within deep attention layers guided by the instruction intent, while MLP layers exhibit semantic inertia, acting as an adversarial force. Furthermore, we identify a sparse set of specialized attention heads that drive this arbitration. Causal interventions demonstrate that manipulating a mere 5% of these critical heads can decrease the modality-following ratio by 60% through blocking, or increase it by 60% through targeted amplification of failed samples. Our work provides a substantial step toward model transparency and offers a principled framework for the orchestration of multimodal information in MLLMs.