Perdido na Ordem do Prompt: Revelando as Limitações da Atenção Causal em Modelos de Linguagem

Resumo

Os modelos de linguagem de grande escala exibem uma sensibilidade surpreendente à estrutura do *prompt*, mas os mecanismos subjacentes a essa sensibilidade permanecem pouco compreendidos. Neste trabalho, conduzimos uma investigação aprofundada sobre um caso notável: na resposta a perguntas de múltipla escolha, posicionar o contexto antes das perguntas e opções (CPO) supera a ordem inversa (OPC) em mais de 14 pontos percentuais, consistentemente em uma ampla variedade de modelos e conjuntos de dados. Por meio de uma análise arquitetônica sistemática, identificamos a atenção causal como o mecanismo central: nos *prompts* OPC, a máscara causal impede que os *tokens* das opções atendam ao contexto, criando um gargalo de informação onde o contexto se torna invisível para as opções.

English

Large language models exhibit surprising sensitivity to the structure of the prompt, but the mechanisms underlying this sensitivity remain poorly understood. In this work, we conduct an in-depth investigation on a striking case: in multiple-choice question answering, placing context before the questions and options (CQO) outperforms the reverse order (QOC) by over 14%p, consistently over a wide range of models and datasets. Through systematic architectural analysis, we identify causal attention as the core mechanism: in QOC prompts, the causal mask prevents option tokens from attending to context, creating an information bottleneck where context becomes invisible to options.

Perdido na Ordem do Prompt: Revelando as Limitações da Atenção Causal em Modelos de Linguagem

Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models

Resumo

Support