ChatPaper.aiChatPaper

GroupRank: Групповая парадигма переранжирования на основе обучения с подкреплением

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

November 10, 2025
Авторы: Duolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu
cs.AI

Аннотация

Крупные языковые модели продемонстрировали значительный потенциал в качестве реранкеров для повышения общей производительности систем RAG. Однако существующие парадигмы реранкинга ограничены фундаментальной теоретической и практической дилеммой: поточечные методы, будучи простыми и высоко гибкими, оценивают документы независимо, что делает их подверженными "Ловушке ранкинговой близорукости" — игнорированию относительной важности документов. В отличие от них, списочные методы способны воспринимать глобальный контекст ранжирования, но страдают от присущей им "Жесткости списка", что приводит к серьезным проблемам масштабируемости и гибкости при обработке больших наборов кандидатов. Для решения этих проблем мы предлагаем Groupwise — новую парадигму реранкинга. В этом подходе запрос и группа кандидатных документов совместно подаются в модель, которая выполняет внутригрупповые сравнения для назначения индивидуальных релевантностных оценок каждому документу. Данная конструкция сохраняет гибкость поточечных методов, одновременно обеспечивая сравнительную способность списочных методов. Для обучения модели мы дополнительно применяем GRPO, оснащенный гетерогенной функцией вознаграждения, которая интегрирует метрики ранжирования с распределительным вознаграждением, направленным на выравнивание распределений оценок между группами. Для преодоления узкого места, вызванного нехваткой качественных размеченных данных, мы дополнительно предлагаем инновационный конвейер синтеза высококачественных данных для поиска и ранжирования. Полученные данные могут быть использованы не только для обучения реранкера, но и для обучения поискового модуля. Многочисленные эксперименты подтверждают эффективность нашего подхода на двух тестовых наборах для сложного поиска с элементами рассуждения: BRIGHT и R2MED.
English
Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.
PDF547December 1, 2025