GroupRank : Un paradigme de reranking par groupe piloté par l'apprentissage par renforcement
GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning
November 10, 2025
papers.authors: Duolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
papers.abstract
Les grands modèles de langage ont démontré un fort potentiel en tant que rerankeurs pour améliorer les performances globales des systèmes RAG. Cependant, les paradigmes de reranking existants sont limités par un dilemme théorique et pratique fondamental : les méthodes Pointwise, bien que simples et très flexibles, évaluent les documents indépendamment, ce qui les rend vulnérables au « piège de la myopie du classement » (Ranking Myopia Trap), négligeant l'importance relative entre les documents. En revanche, les méthodes Listwise peuvent percevoir le contexte global du classement, mais souffrent d'une rigidité de liste (List Rigidity) inhérente, entraînant de graves problèmes d'évolutivité et de flexibilité lors du traitement de grands ensembles de candidats. Pour relever ces défis, nous proposons Groupwise, un nouveau paradigme de reranking. Dans cette approche, la requête et un groupe de documents candidats sont conjointement introduits dans le modèle, qui effectue des comparaisons intra-groupe pour attribuer un score de pertinence individuel à chaque document. Cette conception conserve la flexibilité des méthodes Pointwise tout en permettant la capacité comparative des méthodes Listwise. Nous adoptons en outre GRPO pour l'entraînement du modèle, équipé d'une fonction de récompense hétérogène qui intègre des métriques de classement avec une récompense distributionnelle visant à aligner les distributions de scores entre les groupes. Pour surmonter le goulot d'étranglement causé par la rareté des données étiquetées de haute qualité, nous proposons en outre une pipeline innovante pour synthétiser des données de recherche et de classement de haute qualité. Les données résultantes peuvent être exploitées non seulement pour entraîner le rerankeur, mais aussi pour entraîner le système de recherche. Des expériences approfondies valident l'efficacité de notre approche. Sur deux benchmarks de recherche intensifs en raisonnement, BRIGHT et R2MED.
English
Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.