ReasonRank: Het versterken van passageranking met een sterk redeneervermogen
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
August 9, 2025
Auteurs: Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
cs.AI
Samenvatting
Listwise ranking gebaseerd op Large Language Models (LLM) heeft superieure prestaties getoond in veel passage-rankingtaken. Met de ontwikkeling van Large Reasoning Models hebben veel studies aangetoond dat stap-voor-stap redeneren tijdens testtijd helpt om de listwise rankingprestaties te verbeteren. Vanwege de schaarste aan trainingsdata die intensief redeneren vereist, presteren bestaande herrankers echter slecht in veel complexe rankingscenario's en blijft het rankingvermogen van herrankers die intensief redeneren grotendeels onderontwikkeld. In dit artikel stellen we eerst een geautomatiseerd framework voor de synthese van trainingsdata die intensief redeneren vereist voor, waarbij trainingsquery's en passages uit diverse domeinen worden gebruikt en DeepSeek-R1 wordt toegepast om hoogwaardige trainingslabels te genereren. Een zelfconsistentie-datafilteringsmechanisme is ontworpen om de datakwaliteit te waarborgen. Om de listwise herranker te voorzien van een sterk redeneervermogen, stellen we verder een tweefasen post-trainingsbenadering voor, die een cold-start supervised fine-tuning (SFT) fase omvat voor het leren van redeneerpatronen en een reinforcement learning (RL) fase voor verdere verbetering van het rankingvermogen. Tijdens de RL-fase hebben we, gebaseerd op de aard van listwise ranking, een multi-view ranking beloning ontworpen, die effectiever is dan een beloning gebaseerd op een rankingmetriek. Uitgebreide experimenten tonen aan dat onze getrainde herranker die intensief redeneert, ReasonRank, bestaande baseline-modellen significant overtreft en ook veel lagere latentie bereikt dan de pointwise herranker Rank1. Door verdere experimenten heeft onze ReasonRank een state-of-the-art (SOTA) prestatie van 40.6 behaald op de BRIGHT leaderboard\footnote{https://brightbenchmark.github.io/.} Onze codes zijn beschikbaar op https://github.com/8421BCD/ReasonRank.
English
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdeveloped. In this paper, we
first propose an automated reasoning-intensive training data synthesis
framework, which sources training queries and passages from diverse domains and
applies DeepSeek-R1 to generate high-quality training labels. A
self-consistency data filtering mechanism is designed to ensure the data
quality. To empower the listwise reranker with strong reasoning ability, we
further propose a two-stage post-training approach, which includes a cold-start
supervised fine-tuning (SFT) stage for reasoning pattern learning and a
reinforcement learning (RL) stage for further ranking ability enhancement.
During the RL stage, based on the nature of listwise ranking, we design a
multi-view ranking reward, which is more effective than a ranking metric-based
reward. Extensive experiments demonstrate that our trained reasoning-intensive
reranker ReasonRank outperforms existing baselines significantly and
also achieves much lower latency than pointwise reranker Rank1. Through
further experiments, our ReasonRank has achieved state-of-the-art (SOTA)
performance 40.6 on the BRIGHT
leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are
available at https://github.com/8421BCD/ReasonRank.