GroupRank: Een groepsgewijze herrangschikkingparadigma aangedreven door reinforcement learning
GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning
November 10, 2025
Auteurs: Duolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
Samenvatting
Grote Taalmodellen hebben een sterk potentieel getoond als herrangschikkers om de algehele prestaties van RAG-systemen te verbeteren. Bestaande herrangschikkingsparadigma's worden echter beperkt door een fundamenteel theoretisch en praktisch dilemma: Pointwise-methoden, hoewel eenvoudig en zeer flexibel, evalueren documenten onafhankelijk, waardoor ze vatbaar zijn voor de 'Ranking Myopia Trap' en het relatieve belang tussen documenten over het hoofd zien. Listwise-methoden daarentegen kunnen de globale rangschikkingscontext waarnemen, maar lijden onder inherente 'List Rigidity', wat leidt tot ernstige schaalbaarheids- en flexibiliteitsproblemen bij het verwerken van grote kandidaatsets. Om deze uitdagingen aan te pakken, stellen wij Groupwise voor, een nieuw herrangschikkingsparadigma. Bij deze aanpak worden de query en een groep kandidaatdocumenten gezamenlijk aan het model gevoed, dat binnen-groepsvergelijkingen uitvoert om individuele relevantiescores aan elk document toe te kennen. Dit ontwerp behoudt de flexibiliteit van Pointwise-methoden en maakt tegelijkertijd de vergelijkende capaciteit van Listwise-methoden mogelijk. Wij gebruiken verder GRPO voor modeltraining, uitgerust met een heterogene beloningsfunctie die rangschikkingsmetrieken integreert met een distributionele beloning die gericht is op het afstemmen van scoreverdelingen tussen groepen. Om het knelpunt veroorzaakt door de schaarste aan hoogwaardige gelabelde gegevens te overwinnen, stellen wij verder een innovatieve pijplijn voor voor het synthetiseren van hoogwaardige retrievals- en rangschikkingsgegevens. De resulterende gegevens kunnen niet alleen worden gebruikt voor het trainen van de herrangschikker, maar ook voor het trainen van de ophaler. Uitgebreide experimenten valideren de effectiviteit van onze aanpak. Op twee reasoning-intensieve retrievalbenchmarks, BRIGHT en R2MED.
English
Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.