Якоря инструкций: анализ причинной динамики арбитража модальностей
Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration
February 3, 2026
Авторы: Yu Zhang, Mufan Xu, Xuefeng Bai, Kehai chen, Pengfei Zhang, Yang Xiang, Min Zhang
cs.AI
Аннотация
Следование модальности представляет собой способность мультимодальных больших языковых моделей (МБЯМ) избирательно использовать мультимодальный контекст в соответствии с инструкциями пользователя. Это свойство является фундаментальным для обеспечения безопасности и надежности при реальном применении. Однако лежащие в основе этого процесса принятия решений механизмы остаются слабо изученными. В данной статье мы исследуем его рабочий механизм через призму информационных потоков. Наши результаты показывают, что токены инструкций функционируют как структурные якоря для арбитража модальностей: поверхностные слои внимания осуществляют неселективную передачу информации, направляя мультимодальные сигналы к этим якорям в качестве латентного буфера; конкуренция модальностей разрешается в глубоких слоях внимания под руководством интенции инструкции, в то время как MLP-слои проявляют семантическую инерцию, выступая в роли противодействующей силы. Кроме того, мы идентифицировали разреженное множество специализированных голов внимания, которые управляют этим арбитражем. Причинностные интервенции демонстрируют, что манипулирование всего 5% этих критически важных голов позволяет снизить коэффициент следования модальности на 60% путем блокировки или повысить его на 60% за счет целевого усиления неудачных примеров. Наша работа представляет собой значительный шаг к прозрачности моделей и предлагает принципиальную основу для оркестровки мультимодальной информации в МБЯМ.
English
Modality following serves as the capacity of multimodal large language models (MLLMs) to selectively utilize multimodal contexts based on user instructions. It is fundamental to ensuring safety and reliability in real-world deployments. However, the underlying mechanisms governing this decision-making process remain poorly understood. In this paper, we investigate its working mechanism through an information flow lens. Our findings reveal that instruction tokens function as structural anchors for modality arbitration: Shallow attention layers perform non-selective information transfer, routing multimodal cues to these anchors as a latent buffer; Modality competition is resolved within deep attention layers guided by the instruction intent, while MLP layers exhibit semantic inertia, acting as an adversarial force. Furthermore, we identify a sparse set of specialized attention heads that drive this arbitration. Causal interventions demonstrate that manipulating a mere 5% of these critical heads can decrease the modality-following ratio by 60% through blocking, or increase it by 60% through targeted amplification of failed samples. Our work provides a substantial step toward model transparency and offers a principled framework for the orchestration of multimodal information in MLLMs.