Âncoras de Instrução: Dissecando a Dinâmica Causal da Arbitragem de Modalidade

Resumo

A capacidade de seguir modalidades refere-se à aptidão dos modelos de linguagem grandes multimodais (MLLMs) para utilizar seletivamente contextos multimodais com base nas instruções do utilizador. Esta capacidade é fundamental para garantir segurança e confiabilidade em implementações do mundo real. No entanto, os mecanismos subjacentes que governam este processo de tomada de decisão permanecem pouco compreendidos. Neste artigo, investigamos o seu mecanismo de funcionamento através da lente do fluxo de informação. As nossas descobertas revelam que os *tokens* de instrução funcionam como âncoras estruturais para a arbitragem de modalidade: as camadas de atenção superficiais realizam uma transferência de informação não seletiva, encaminhando pistas multimodais para estas âncoras como um *buffer* latente; a competição de modalidade é resolvida dentro de camadas de atenção profundas guiadas pela intenção da instrução, enquanto as camadas MLP exibem inércia semântica, atuando como uma força adversária. Adicionalmente, identificamos um conjunto esparso de cabeças de atenção especializadas que conduzem esta arbitragem. Intervenções causais demonstram que a manipulação de apenas 5% destas cabeças críticas pode diminuir a taxa de seguimento de modalidade em 60% através de bloqueio, ou aumentá-la em 60% através da amplificação direcionada de amostras com falha. O nosso trabalho representa um passo substancial em direção à transparência do modelo e oferece uma estrutura fundamentada para a orquestração de informação multimodal em MLLMs.

English

Modality following serves as the capacity of multimodal large language models (MLLMs) to selectively utilize multimodal contexts based on user instructions. It is fundamental to ensuring safety and reliability in real-world deployments. However, the underlying mechanisms governing this decision-making process remain poorly understood. In this paper, we investigate its working mechanism through an information flow lens. Our findings reveal that instruction tokens function as structural anchors for modality arbitration: Shallow attention layers perform non-selective information transfer, routing multimodal cues to these anchors as a latent buffer; Modality competition is resolved within deep attention layers guided by the instruction intent, while MLP layers exhibit semantic inertia, acting as an adversarial force. Furthermore, we identify a sparse set of specialized attention heads that drive this arbitration. Causal interventions demonstrate that manipulating a mere 5% of these critical heads can decrease the modality-following ratio by 60% through blocking, or increase it by 60% through targeted amplification of failed samples. Our work provides a substantial step toward model transparency and offers a principled framework for the orchestration of multimodal information in MLLMs.

Âncoras de Instrução: Dissecando a Dinâmica Causal da Arbitragem de Modalidade

Instruction Anchors: Dissecting the Causal Dynamics of Modality Arbitration

Resumo

Support