Запросно-ориентированный и учитывающий память ранжировщик для обработки длинных контекстов
Query-focused and Memory-aware Reranker for Long Context Processing
February 12, 2026
Авторы: Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou
cs.AI
Аннотация
Основываясь на существующем анализе ретривельных головок в больших языковых моделях, мы предлагаем альтернативную фреймворк-архитектуру переранжирования, которая обучает модели оценивать релевантность пассажа и запроса, используя показатели внимания выбранных головок. Этот подход представляет собой листинговое решение, которое использует целостную информацию из всего списка кандидатов в процессе ранжирования. Одновременно он естественным образом генерирует непрерывные оценки релевантности, что позволяет проводить обучение на произвольных наборах данных для поиска без необходимости супервизии по шкале Лайкерта. Наш фреймворк является легковесным и эффективным, требуя для достижения высокой производительности лишь модели небольшого масштаба (например, с 4 миллиардами параметров). Многочисленные эксперименты демонстрируют, что наш метод превосходит существующие передовые поинтвайзные и листинговые системы переранжирования в различных областях, включая Wikipedia и наборы данных с длинными повествованиями. Он также устанавливает новый рекорд на бенчмарке LoCoMo, который оценивает способности к пониманию диалога и использованию памяти. Мы дополнительно показываем, что наш фреймворк поддерживает гибкие расширения. Например, обогащение кандидатных пассажей контекстуальной информацией дополнительно повышает точность ранжирования, а обучение головок внимания из средних слоев повышает эффективность без ущерба для производительности.
English
Built upon the existing analysis of retrieval heads in large language models, we propose an alternative reranking framework that trains models to estimate passage-query relevance using the attention scores of selected heads. This approach provides a listwise solution that leverages holistic information within the entire candidate shortlist during ranking. At the same time, it naturally produces continuous relevance scores, enabling training on arbitrary retrieval datasets without requiring Likert-scale supervision. Our framework is lightweight and effective, requiring only small-scale models (e.g., 4B parameters) to achieve strong performance. Extensive experiments demonstrate that our method outperforms existing state-of-the-art pointwise and listwise rerankers across multiple domains, including Wikipedia and long narrative datasets. It further establishes a new state-of-the-art on the LoCoMo benchmark that assesses the capabilities of dialogue understanding and memory usage. We further demonstrate that our framework supports flexible extensions. For example, augmenting candidate passages with contextual information further improves ranking accuracy, while training attention heads from middle layers enhances efficiency without sacrificing performance.