ReasonRank: 강력한 추론 능력으로 문단 순위 지정 기능 강화
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
August 9, 2025
저자: Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
cs.AI
초록
대형 언어 모델(LLM) 기반의 리스트와이즈 랭킹은 많은 문서 랭킹 작업에서 우수한 성능을 보여주고 있습니다. 대형 추론 모델의 발전과 함께, 테스트 시간 동안 단계별 추론이 리스트와이즈 랭킹 성능을 향상시키는 데 도움이 된다는 많은 연구가 입증되었습니다. 그러나 추론 집약적인 훈련 데이터의 부족으로 인해, 기존의 리랭커는 많은 복잡한 랭킹 시나리오에서 낮은 성능을 보이며, 추론 집약적인 리랭커의 랭킹 능력은 크게 미흡한 상태입니다. 본 논문에서는 먼저 다양한 도메인에서 훈련 쿼리와 문서를 수집하고 DeepSeek-R1을 적용하여 고품질의 훈련 레이블을 생성하는 자동화된 추론 집약적인 훈련 데이터 합성 프레임워크를 제안합니다. 데이터 품질을 보장하기 위해 자기 일관성 데이터 필터링 메커니즘이 설계되었습니다. 리스트와이즈 리랭커에 강력한 추론 능력을 부여하기 위해, 우리는 두 단계의 사후 훈련 접근 방식을 추가로 제안합니다. 이 접근 방식은 추론 패턴 학습을 위한 콜드 스타트 지도 미세 조정(SFT) 단계와 랭킹 능력 추가 강화를 위한 강화 학습(RL) 단계를 포함합니다. RL 단계에서는 리스트와이즈 랭킹의 특성을 기반으로 랭킹 메트릭 기반 보상보다 더 효과적인 다중 뷰 랭킹 보상을 설계합니다. 광범위한 실험을 통해 우리가 훈련한 추론 집약적인 리랭커 ReasonRank는 기존 베이스라인을 크게 능가하며, 포인트와이즈 리랭커 Rank1보다 훨씬 낮은 지연 시간을 달성함을 보여줍니다. 추가 실험을 통해 우리의 ReasonRank는 BRIGHT 리더보드에서 40.6의 최첨단(SOTA) 성능을 달성했습니다. 우리의 코드는 https://github.com/8421BCD/ReasonRank에서 확인할 수 있습니다.
English
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdeveloped. In this paper, we
first propose an automated reasoning-intensive training data synthesis
framework, which sources training queries and passages from diverse domains and
applies DeepSeek-R1 to generate high-quality training labels. A
self-consistency data filtering mechanism is designed to ensure the data
quality. To empower the listwise reranker with strong reasoning ability, we
further propose a two-stage post-training approach, which includes a cold-start
supervised fine-tuning (SFT) stage for reasoning pattern learning and a
reinforcement learning (RL) stage for further ranking ability enhancement.
During the RL stage, based on the nature of listwise ranking, we design a
multi-view ranking reward, which is more effective than a ranking metric-based
reward. Extensive experiments demonstrate that our trained reasoning-intensive
reranker ReasonRank outperforms existing baselines significantly and
also achieves much lower latency than pointwise reranker Rank1. Through
further experiments, our ReasonRank has achieved state-of-the-art (SOTA)
performance 40.6 on the BRIGHT
leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are
available at https://github.com/8421BCD/ReasonRank.