Aufmerksamkeitsbecken: Warum die kontextuelle Position in großen Sprachmodellen wichtig ist
Attention Basin: Why Contextual Position Matters in Large Language Models
August 7, 2025
papers.authors: Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen
cs.AI
papers.abstract
Die Leistung von Large Language Models (LLMs) ist stark abhängig von der kontextuellen Position der Informationen im Eingabedatenstrom. Um den Mechanismus hinter dieser Positionsverzerrung zu untersuchen, zeigen unsere umfangreichen Experimente ein konsistentes Phänomen, das wir als „Attention Basin“ bezeichnen: Wenn eine Sequenz strukturierter Elemente (z. B. abgerufene Dokumente oder Few-Shot-Beispiele) präsentiert wird, weisen die Modelle systematisch höhere Aufmerksamkeit den Elementen am Anfang und Ende der Sequenz zu, während sie diejenigen in der Mitte vernachlässigen. Entscheidend ist, dass unsere Analyse weiterhin zeigt, dass die Zuweisung höherer Aufmerksamkeit zu kritischen Informationen der Schlüssel zur Verbesserung der Modellleistung ist. Basierend auf diesen Erkenntnissen führen wir Attention-Driven Reranking (AttnRank) ein, ein zweistufiges Framework, das (i) die intrinsischen Positionsaufmerksamkeitspräferenzen eines Modells mithilfe eines kleinen Kalibrierungssatzes schätzt und (ii) abgerufene Dokumente oder Few-Shot-Beispiele neu anordnet, um die wichtigsten Inhalte mit diesen Hochaufmerksamkeitspositionen in Einklang zu bringen. AttnRank ist eine modellagnostische, trainingsfreie und Plug-and-Play-Methode mit minimalem Rechenaufwand. Experimente zu Multi-Hop-QA- und Few-Shot-In-Context-Learning-Aufgaben zeigen, dass AttnRank erhebliche Verbesserungen über 10 große Sprachmodelle unterschiedlicher Architekturen und Skalen hinweg erzielt, ohne Modellparameter oder Trainingsverfahren zu verändern.
English
The performance of Large Language Models (LLMs) is significantly sensitive to
the contextual position of information in the input. To investigate the
mechanism behind this positional bias, our extensive experiments reveal a
consistent phenomenon we term the attention basin: when presented with a
sequence of structured items (e.g., retrieved documents or few-shot examples),
models systematically assign higher attention to the items at the beginning and
end of the sequence, while neglecting those in the middle. Crucially, our
analysis further reveals that allocating higher attention to critical
information is key to enhancing model performance. Based on these insights, we
introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i)
estimates a model's intrinsic positional attention preferences using a small
calibration set, and (ii) reorders retrieved documents or few-shot examples to
align the most salient content with these high-attention positions. AttnRank is
a model-agnostic, training-free, and plug-and-play method with minimal
computational overhead. Experiments on multi-hop QA and few-shot in-context
learning tasks demonstrate that AttnRank achieves substantial improvements
across 10 large language models of varying architectures and scales, without
modifying model parameters or training procedures.