Cuenca de Atención: Por qué la Posición Contextual Importa en los Modelos de Lenguaje a Gran Escala

Resumen

El rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es significativamente sensible a la posición contextual de la información en la entrada. Para investigar el mecanismo detrás de este sesgo posicional, nuestros extensos experimentos revelan un fenómeno consistente que denominamos la cuenca de atención: cuando se presenta una secuencia de elementos estructurados (por ejemplo, documentos recuperados o ejemplos de pocos disparos), los modelos asignan sistemáticamente una mayor atención a los elementos al principio y al final de la secuencia, mientras descuidan aquellos en el medio. De manera crucial, nuestro análisis revela además que asignar una mayor atención a la información crítica es clave para mejorar el rendimiento del modelo. Basándonos en estas observaciones, presentamos Reordenamiento Guiado por Atención (AttnRank), un marco de trabajo de dos etapas que (i) estima las preferencias de atención posicional intrínsecas de un modelo utilizando un pequeño conjunto de calibración, y (ii) reordena los documentos recuperados o los ejemplos de pocos disparos para alinear el contenido más relevante con estas posiciones de alta atención. AttnRank es un método independiente del modelo, sin necesidad de entrenamiento y de tipo plug-and-play, con un mínimo costo computacional. Los experimentos en tareas de preguntas y respuestas de múltiples saltos (multi-hop QA) y aprendizaje en contexto con pocos disparos demuestran que AttnRank logra mejoras sustanciales en 10 modelos de lenguaje de gran escala con diversas arquitecturas y escalas, sin modificar los parámetros del modelo ni los procedimientos de entrenamiento.

English

The performance of Large Language Models (LLMs) is significantly sensitive to the contextual position of information in the input. To investigate the mechanism behind this positional bias, our extensive experiments reveal a consistent phenomenon we term the attention basin: when presented with a sequence of structured items (e.g., retrieved documents or few-shot examples), models systematically assign higher attention to the items at the beginning and end of the sequence, while neglecting those in the middle. Crucially, our analysis further reveals that allocating higher attention to critical information is key to enhancing model performance. Based on these insights, we introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i) estimates a model's intrinsic positional attention preferences using a small calibration set, and (ii) reorders retrieved documents or few-shot examples to align the most salient content with these high-attention positions. AttnRank is a model-agnostic, training-free, and plug-and-play method with minimal computational overhead. Experiments on multi-hop QA and few-shot in-context learning tasks demonstrate that AttnRank achieves substantial improvements across 10 large language models of varying architectures and scales, without modifying model parameters or training procedures.

Cuenca de Atención: Por qué la Posición Contextual Importa en los Modelos de Lenguaje a Gran Escala

Attention Basin: Why Contextual Position Matters in Large Language Models

Resumen

Support