ChatPaper.aiChatPaper

GroupRank: Ein gruppenbasiertes Neubewertungsparadigma gesteuert durch Reinforcement Learning

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

November 10, 2025
papers.authors: Duolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu
cs.AI

papers.abstract

Große Sprachmodelle haben ein starkes Potenzial als Reranker gezeigt, um die Gesamtleistung von RAG-Systemen zu verbessern. Allerdings sind bestehende Reranking-Paradigmen durch ein grundlegendes theoretisches und praktisches Dilemma eingeschränkt: Punktweise Methoden, obwohl einfach und hochflexibel, bewerten Dokumente unabhängig voneinander, was sie anfällig für den "Ranking-Myopie-Fehler" macht, da sie die relative Bedeutung zwischen Dokumenten übersehen. Im Gegensatz dazu können listenweise Methoden den globalen Ranking-Kontext erfassen, leiden jedoch unter inhärenter "Listenstarrheit", was zu erheblichen Skalierbarkeits- und Flexibilitätsproblemen bei der Verarbeitung großer Kandidatenmengen führt. Um diese Herausforderungen zu bewältigen, schlagen wir Groupwise vor, ein neuartiges Reranking-Paradigma. Bei diesem Ansatz werden die Abfrage und eine Gruppe von Kandidatendokumenten gemeinsam in das Modell eingespeist, das innerhalb der Gruppe Vergleiche durchführt, um individuelle Relevanzwerte für jedes Dokument zu vergeben. Dieses Design bewahrt die Flexibilität punktweiser Methoden und ermöglicht gleichzeitig die Vergleichsfähigkeit listenweiser Methoden. Wir setzen weiterhin GRPO für das Modelltraining ein, ausgestattet mit einer heterogenen Belohnungsfunktion, die Ranking-Metriken mit einer verteilungsbasierten Belohnung kombiniert, die auf eine Angleichung der Bewertungsverteilungen über Gruppen abzielt. Um den Engpass durch den Mangel an hochwertigen gelabelten Daten zu überwinden, schlagen wir zudem eine innovative Pipeline zur Synthese hochwertiger Retrieval- und Ranking-Daten vor. Die resultierenden Daten können nicht nur zum Training des Rerankers, sondern auch des Retrievers genutzt werden. Umfangreiche Experimente validieren die Wirksamkeit unseres Ansatzes. Auf zwei reasoning-intensiven Retrieval-Benchmarks, BRIGHT und R2MED.
English
Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.
PDF547December 1, 2025