Reordenador Basado en Consulta y con Conciencia de Memoria para el Procesamiento de Contextos Largos

Resumen

Basándonos en el análisis existente de las cabezas de recuperación en los modelos de lenguaje grande, proponemos un marco alternativo de reranking que entrena modelos para estimar la relevancia pasaje-consulta utilizando las puntuaciones de atención de cabezas seleccionadas. Este enfoque proporciona una solución de tipo *listwise* que aprovecha información holística dentro de toda la lista corta de candidatos durante la clasificación. Al mismo tiempo, produce naturalmente puntuaciones de relevancia continuas, permitiendo el entrenamiento en conjuntos de datos de recuperación arbitrarios sin requerir supervisión basada en escalas Likert. Nuestro marco es liviano y efectivo, requiriendo sólo modelos a pequeña escala (por ejemplo, 4B parámetros) para lograr un rendimiento sólido. Experimentos exhaustivos demuestran que nuestro método supera a los rerankers *pointwise* y *listwise* de última generación existentes en múltiples dominios, incluyendo Wikipedia y conjuntos de datos narrativos largos. Además, establece un nuevo estado del arte en el benchmark LoCoMo, que evalúa las capacidades de comprensión de diálogos y uso de memoria. También demostramos que nuestro marco admite extensiones flexibles. Por ejemplo, aumentar los pasajes candidatos con información contextual mejora aún más la precisión de la clasificación, mientras que entrenar cabezas de atención de capas intermedias mejora la eficiencia sin sacrificar el rendimiento.

English

Built upon the existing analysis of retrieval heads in large language models, we propose an alternative reranking framework that trains models to estimate passage-query relevance using the attention scores of selected heads. This approach provides a listwise solution that leverages holistic information within the entire candidate shortlist during ranking. At the same time, it naturally produces continuous relevance scores, enabling training on arbitrary retrieval datasets without requiring Likert-scale supervision. Our framework is lightweight and effective, requiring only small-scale models (e.g., 4B parameters) to achieve strong performance. Extensive experiments demonstrate that our method outperforms existing state-of-the-art pointwise and listwise rerankers across multiple domains, including Wikipedia and long narrative datasets. It further establishes a new state-of-the-art on the LoCoMo benchmark that assesses the capabilities of dialogue understanding and memory usage. We further demonstrate that our framework supports flexible extensions. For example, augmenting candidate passages with contextual information further improves ranking accuracy, while training attention heads from middle layers enhances efficiency without sacrificing performance.

Reordenador Basado en Consulta y con Conciencia de Memoria para el Procesamiento de Contextos Largos

Query-focused and Memory-aware Reranker for Long Context Processing

Resumen

Support