Cuenca de Atención: Por qué la Posición Contextual Importa en los Modelos de Lenguaje a Gran Escala
Attention Basin: Why Contextual Position Matters in Large Language Models
August 7, 2025
Autores: Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen
cs.AI
Resumen
El rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es significativamente sensible a la posición contextual de la información en la entrada. Para investigar el mecanismo detrás de este sesgo posicional, nuestros extensos experimentos revelan un fenómeno consistente que denominamos la cuenca de atención: cuando se presenta una secuencia de elementos estructurados (por ejemplo, documentos recuperados o ejemplos de pocos disparos), los modelos asignan sistemáticamente una mayor atención a los elementos al principio y al final de la secuencia, mientras descuidan aquellos en el medio. De manera crucial, nuestro análisis revela además que asignar una mayor atención a la información crítica es clave para mejorar el rendimiento del modelo. Basándonos en estas observaciones, presentamos Reordenamiento Guiado por Atención (AttnRank), un marco de trabajo de dos etapas que (i) estima las preferencias de atención posicional intrínsecas de un modelo utilizando un pequeño conjunto de calibración, y (ii) reordena los documentos recuperados o los ejemplos de pocos disparos para alinear el contenido más relevante con estas posiciones de alta atención. AttnRank es un método independiente del modelo, sin necesidad de entrenamiento y de tipo plug-and-play, con un mínimo costo computacional. Los experimentos en tareas de preguntas y respuestas de múltiples saltos (multi-hop QA) y aprendizaje en contexto con pocos disparos demuestran que AttnRank logra mejoras sustanciales en 10 modelos de lenguaje de gran escala con diversas arquitecturas y escalas, sin modificar los parámetros del modelo ni los procedimientos de entrenamiento.
English
The performance of Large Language Models (LLMs) is significantly sensitive to
the contextual position of information in the input. To investigate the
mechanism behind this positional bias, our extensive experiments reveal a
consistent phenomenon we term the attention basin: when presented with a
sequence of structured items (e.g., retrieved documents or few-shot examples),
models systematically assign higher attention to the items at the beginning and
end of the sequence, while neglecting those in the middle. Crucially, our
analysis further reveals that allocating higher attention to critical
information is key to enhancing model performance. Based on these insights, we
introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i)
estimates a model's intrinsic positional attention preferences using a small
calibration set, and (ii) reorders retrieved documents or few-shot examples to
align the most salient content with these high-attention positions. AttnRank is
a model-agnostic, training-free, and plug-and-play method with minimal
computational overhead. Experiments on multi-hop QA and few-shot in-context
learning tasks demonstrate that AttnRank achieves substantial improvements
across 10 large language models of varying architectures and scales, without
modifying model parameters or training procedures.