Bassin d'Attention : Pourquoi la Position Contextuelle Compte dans les Grands Modèles de Langage
Attention Basin: Why Contextual Position Matters in Large Language Models
August 7, 2025
papers.authors: Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen
cs.AI
papers.abstract
La performance des modèles de langage à grande échelle (LLMs) est fortement sensible à la position contextuelle des informations dans l'entrée. Pour étudier le mécanisme sous-jacent à ce biais positionnel, nos expériences approfondies révèlent un phénomène constant que nous appelons le bassin d'attention : lorsqu'ils sont confrontés à une séquence d'éléments structurés (par exemple, des documents récupérés ou des exemples en few-shot), les modèles attribuent systématiquement une attention plus élevée aux éléments situés au début et à la fin de la séquence, tout en négligeant ceux du milieu. De manière cruciale, notre analyse révèle en outre que l'allocation d'une attention plus élevée aux informations critiques est essentielle pour améliorer la performance des modèles. Sur la base de ces observations, nous introduisons le réordonnancement piloté par l'attention (AttnRank), un cadre en deux étapes qui (i) estime les préférences attentionnelles positionnelles intrinsèques d'un modèle à l'aide d'un petit ensemble de calibration, et (ii) réordonne les documents récupérés ou les exemples en few-shot pour aligner le contenu le plus saillant avec ces positions à haute attention. AttnRank est une méthode agnostique au modèle, sans entraînement, et prête à l'emploi, avec un surcoût computationnel minimal. Les expériences sur des tâches de questions-réponses multi-sauts et d'apprentissage en contexte few-shot démontrent qu'AttnRank obtient des améliorations substantielles sur 10 modèles de langage à grande échelle de différentes architectures et échelles, sans modifier les paramètres du modèle ou les procédures d'entraînement.
English
The performance of Large Language Models (LLMs) is significantly sensitive to
the contextual position of information in the input. To investigate the
mechanism behind this positional bias, our extensive experiments reveal a
consistent phenomenon we term the attention basin: when presented with a
sequence of structured items (e.g., retrieved documents or few-shot examples),
models systematically assign higher attention to the items at the beginning and
end of the sequence, while neglecting those in the middle. Crucially, our
analysis further reveals that allocating higher attention to critical
information is key to enhancing model performance. Based on these insights, we
introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i)
estimates a model's intrinsic positional attention preferences using a small
calibration set, and (ii) reorders retrieved documents or few-shot examples to
align the most salient content with these high-attention positions. AttnRank is
a model-agnostic, training-free, and plug-and-play method with minimal
computational overhead. Experiments on multi-hop QA and few-shot in-context
learning tasks demonstrate that AttnRank achieves substantial improvements
across 10 large language models of varying architectures and scales, without
modifying model parameters or training procedures.