ChatPaper.aiChatPaper

GroupRank: 강화 학습 기반 그룹 단위 재순위 지정 패러다임

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

November 10, 2025
저자: Duolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu
cs.AI

초록

대규모 언어 모델은 RAG 시스템의 전반적인 성능을 향상시키는 리랭커로서 강력한 잠재력을 보여주고 있습니다. 그러나 기존의 재순위화 패러다임은 핵심적인 이론적, 실질적 딜레마에 제약을 받고 있습니다. 포인트와이즈 방식은 단순하고 유연성이 높지만 문서를 독립적으로 평가하여 '순위 근시함 함정'에 빠지기 쉬워 문서 간 상대적 중요성을 간과합니다. 반면, 리스트와이즈 방식은 전역적 순위 맥락을 인식할 수 있지만 고유한 '리스트 경직성' 문제로 인해 대규모 후보 문서 집합을 처리할 때 확장성과 유연성에 심각한 문제가 발생합니다. 이러한 문제를 해결하기 위해 우리는 새로운 재순위화 패러다임인 그룹와이즈를 제안합니다. 이 접근법에서는 질의와 문서 그룹을 모델에 함께 입력하여 그룹 내 비교를 수행함으로써 각 문서에 개별 관련성 점수를 부여합니다. 이 설계는 포인트와이즈 방식의 유연성을 유지하면서 리스트와이즈 방식의 비교 능력을 가능하게 합니다. 또한 순위 측정지표와 그룹 간 점수 분포 정렬을 목표로 하는 분포 보상을 통합한 이종 보상 함수를 갖춘 GRPO를 모델 학습에 적용합니다. 고품질 레이블 데이터 부족으로 인한 병목 현상을 극복하기 위해, 우리는 고품질 검색 및 순위 데이터를 합성하는 혁신적인 파이프라인을 추가로 제안합니다. 결과적으로 생성된 데이터는 리랭커 학습뿐만 아니라 리트리버 학습에도 활용될 수 있습니다. 광범위한 실험을 통해 우리 접근법의 효과성을 입증하였으며, 두 가지 추론 집중형 검색 벤치마크인 BRIGHT와 R2MED에서 그 성능을 검증했습니다.
English
Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.
PDF547December 1, 2025