Aufmerksamkeitsbecken: Warum die kontextuelle Position in großen Sprachmodellen wichtig ist

papers.abstract

Die Leistung von Large Language Models (LLMs) ist stark abhängig von der kontextuellen Position der Informationen im Eingabedatenstrom. Um den Mechanismus hinter dieser Positionsverzerrung zu untersuchen, zeigen unsere umfangreichen Experimente ein konsistentes Phänomen, das wir als „Attention Basin“ bezeichnen: Wenn eine Sequenz strukturierter Elemente (z. B. abgerufene Dokumente oder Few-Shot-Beispiele) präsentiert wird, weisen die Modelle systematisch höhere Aufmerksamkeit den Elementen am Anfang und Ende der Sequenz zu, während sie diejenigen in der Mitte vernachlässigen. Entscheidend ist, dass unsere Analyse weiterhin zeigt, dass die Zuweisung höherer Aufmerksamkeit zu kritischen Informationen der Schlüssel zur Verbesserung der Modellleistung ist. Basierend auf diesen Erkenntnissen führen wir Attention-Driven Reranking (AttnRank) ein, ein zweistufiges Framework, das (i) die intrinsischen Positionsaufmerksamkeitspräferenzen eines Modells mithilfe eines kleinen Kalibrierungssatzes schätzt und (ii) abgerufene Dokumente oder Few-Shot-Beispiele neu anordnet, um die wichtigsten Inhalte mit diesen Hochaufmerksamkeitspositionen in Einklang zu bringen. AttnRank ist eine modellagnostische, trainingsfreie und Plug-and-Play-Methode mit minimalem Rechenaufwand. Experimente zu Multi-Hop-QA- und Few-Shot-In-Context-Learning-Aufgaben zeigen, dass AttnRank erhebliche Verbesserungen über 10 große Sprachmodelle unterschiedlicher Architekturen und Skalen hinweg erzielt, ohne Modellparameter oder Trainingsverfahren zu verändern.

English

The performance of Large Language Models (LLMs) is significantly sensitive to the contextual position of information in the input. To investigate the mechanism behind this positional bias, our extensive experiments reveal a consistent phenomenon we term the attention basin: when presented with a sequence of structured items (e.g., retrieved documents or few-shot examples), models systematically assign higher attention to the items at the beginning and end of the sequence, while neglecting those in the middle. Crucially, our analysis further reveals that allocating higher attention to critical information is key to enhancing model performance. Based on these insights, we introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i) estimates a model's intrinsic positional attention preferences using a small calibration set, and (ii) reorders retrieved documents or few-shot examples to align the most salient content with these high-attention positions. AttnRank is a model-agnostic, training-free, and plug-and-play method with minimal computational overhead. Experiments on multi-hop QA and few-shot in-context learning tasks demonstrate that AttnRank achieves substantial improvements across 10 large language models of varying architectures and scales, without modifying model parameters or training procedures.

Aufmerksamkeitsbecken: Warum die kontextuelle Position in großen Sprachmodellen wichtig ist

Attention Basin: Why Contextual Position Matters in Large Language Models

papers.abstract

Support