Внимание как Бассейн: Почему Контекстуальная Позиция Имеет Значение в Больших Языковых Моделях
Attention Basin: Why Contextual Position Matters in Large Language Models
August 7, 2025
Авторы: Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen
cs.AI
Аннотация
Производительность крупных языковых моделей (LLM) значительно зависит от контекстуального положения информации во входных данных. Чтобы исследовать механизм, лежащий в основе этого позиционного смещения, наши обширные эксперименты выявили устойчивое явление, которое мы назвали "бассейном внимания": при представлении последовательности структурированных элементов (например, извлеченных документов или примеров few-shot) модели систематически уделяют больше внимания элементам в начале и конце последовательности, игнорируя те, что находятся в середине. Важно отметить, что наш анализ также показывает, что выделение большего внимания критической информации является ключевым фактором для повышения производительности модели. На основе этих наблюдений мы представляем Attention-Driven Reranking (AttnRank) — двухэтапный фреймворк, который (i) оценивает внутренние предпочтения модели в отношении позиционного внимания с использованием небольшого калибровочного набора и (ii) переупорядочивает извлеченные документы или примеры few-shot, чтобы выровнять наиболее значимый контент с этими позициями высокого внимания. AttnRank является модель-агностичным, не требующим обучения и готовым к использованию методом с минимальными вычислительными затратами. Эксперименты на задачах многошагового QA и few-shot обучения в контексте демонстрируют, что AttnRank обеспечивает значительные улучшения для 10 крупных языковых моделей различных архитектур и масштабов, без изменения параметров модели или процедур обучения.
English
The performance of Large Language Models (LLMs) is significantly sensitive to
the contextual position of information in the input. To investigate the
mechanism behind this positional bias, our extensive experiments reveal a
consistent phenomenon we term the attention basin: when presented with a
sequence of structured items (e.g., retrieved documents or few-shot examples),
models systematically assign higher attention to the items at the beginning and
end of the sequence, while neglecting those in the middle. Crucially, our
analysis further reveals that allocating higher attention to critical
information is key to enhancing model performance. Based on these insights, we
introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i)
estimates a model's intrinsic positional attention preferences using a small
calibration set, and (ii) reorders retrieved documents or few-shot examples to
align the most salient content with these high-attention positions. AttnRank is
a model-agnostic, training-free, and plug-and-play method with minimal
computational overhead. Experiments on multi-hop QA and few-shot in-context
learning tasks demonstrate that AttnRank achieves substantial improvements
across 10 large language models of varying architectures and scales, without
modifying model parameters or training procedures.