Bacia de Atenção: Por Que a Posição Contextual Importa em Modelos de Linguagem de Grande Escala
Attention Basin: Why Contextual Position Matters in Large Language Models
August 7, 2025
Autores: Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen
cs.AI
Resumo
O desempenho dos Modelos de Linguagem de Grande Escala (LLMs) é significativamente sensível à posição contextual da informação na entrada. Para investigar o mecanismo por trás desse viés posicional, nossos extensos experimentos revelam um fenômeno consistente que denominamos de bacia de atenção: quando apresentados a uma sequência de itens estruturados (por exemplo, documentos recuperados ou exemplos de few-shot), os modelos atribuem sistematicamente maior atenção aos itens no início e no final da sequência, enquanto negligenciam aqueles no meio. Crucialmente, nossa análise revela ainda que a alocação de maior atenção a informações críticas é fundamental para melhorar o desempenho do modelo. Com base nessas percepções, introduzimos o Reordenamento Orientado por Atenção (AttnRank), uma estrutura de duas etapas que (i) estima as preferências intrínsecas de atenção posicional de um modelo usando um pequeno conjunto de calibração, e (ii) reordena documentos recuperados ou exemplos de few-shot para alinhar o conteúdo mais saliente a essas posições de alta atenção. O AttnRank é um método independente de modelo, sem necessidade de treinamento e plug-and-play, com sobrecarga computacional mínima. Experimentos em tarefas de QA multi-hop e aprendizado few-shot em contexto demonstram que o AttnRank alcança melhorias substanciais em 10 modelos de linguagem de grande escala com diferentes arquiteturas e escalas, sem modificar parâmetros do modelo ou procedimentos de treinamento.
English
The performance of Large Language Models (LLMs) is significantly sensitive to
the contextual position of information in the input. To investigate the
mechanism behind this positional bias, our extensive experiments reveal a
consistent phenomenon we term the attention basin: when presented with a
sequence of structured items (e.g., retrieved documents or few-shot examples),
models systematically assign higher attention to the items at the beginning and
end of the sequence, while neglecting those in the middle. Crucially, our
analysis further reveals that allocating higher attention to critical
information is key to enhancing model performance. Based on these insights, we
introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i)
estimates a model's intrinsic positional attention preferences using a small
calibration set, and (ii) reorders retrieved documents or few-shot examples to
align the most salient content with these high-attention positions. AttnRank is
a model-agnostic, training-free, and plug-and-play method with minimal
computational overhead. Experiments on multi-hop QA and few-shot in-context
learning tasks demonstrate that AttnRank achieves substantial improvements
across 10 large language models of varying architectures and scales, without
modifying model parameters or training procedures.