GroupRank:強化学習に駆動されるグループ単位の再ランキングパラダイム
GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning
November 10, 2025
著者: Duolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
要旨
大規模言語モデルは、RAGシステムの全体的な性能を向上させるリランカーとして強力な可能性を示している。しかし、既存のリランキング手法は、核心的な理論的・実践的ジレンマに制約されている。ポイントワイズ手法は単純で高い柔軟性を持つ一方、文書を独立に評価するため、文書間の相対的重要性を見落とす「ランキング近視の罠」に陥りやすい。対照的に、リストワイズ手法は大域的なランキング文脈を把握できるが、本質的な「リスト硬直性」を抱え、大規模候補集合を扱う際に深刻な拡張性と柔軟性の問題が生じる。これらの課題を解決するため、我々は新しいリランキングパラダイムであるGroupwiseを提案する。この手法では、クエリと候補文書群をモデルに同時に入力し、グループ内比較を通じて各文書に個別の関連性スコアを付与する。この設計は、ポイントワイズ手法の柔軟性を維持しつつ、リストワイズ手法の比較能力を可能にする。モデル訓練にはGRPOを採用し、ランキング指標とグループ間のスコア分布調整を目的とした分布報酬を統合した異種報酬関数を装備する。高品質なラベル付きデータの不足によるボトルネックを克服するため、高品質な検索・ランキングデータを合成する革新的なパイプラインをさらに提案する。生成されたデータは、リランカーの訓練だけでなく、リトリーバーの訓練にも活用可能である。大規模な実験により、我々の手法の有効性が検証された。推論集約型検索ベンチマークであるBRIGHTとR2MEDにおける評価結果を報告する。
English
Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.