ReasonRank: Potenziare il Ranking dei Passaggi con una Forte Capacità di Ragionamento
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
August 9, 2025
Autori: Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
cs.AI
Abstract
Il ranking listwise basato su Large Language Model (LLM) ha dimostrato prestazioni superiori in molte attività di ranking di passaggi. Con lo sviluppo dei Large Reasoning Models, molti studi hanno evidenziato che il ragionamento passo-passo durante il test-time aiuta a migliorare le prestazioni del ranking listwise. Tuttavia, a causa della scarsità di dati di addestramento intensivi in ragionamento, i reranker esistenti performano male in molti scenari di ranking complessi e la capacità di ranking dei reranker intensivi in ragionamento rimane largamente sottosviluppata. In questo articolo, proponiamo innanzitutto un framework automatizzato per la sintesi di dati di addestramento intensivi in ragionamento, che attinge query e passaggi di addestramento da domini diversi e applica DeepSeek-R1 per generare etichette di addestramento di alta qualità. Un meccanismo di filtraggio dei dati basato sull'autoconsistenza è progettato per garantire la qualità dei dati. Per dotare il reranker listwise di una forte capacità di ragionamento, proponiamo ulteriormente un approccio di post-addestramento in due fasi, che include una fase di fine-tuning supervisionato (SFT) a freddo per l'apprendimento dei pattern di ragionamento e una fase di apprendimento per rinforzo (RL) per un ulteriore miglioramento della capacità di ranking. Durante la fase RL, basandoci sulla natura del ranking listwise, progettiamo una ricompensa di ranking multi-view, che è più efficace di una ricompensa basata su metriche di ranking. Esperimenti estensivi dimostrano che il nostro reranker intensivo in ragionamento, ReasonRank, supera significativamente i baseline esistenti e raggiunge anche una latenza molto più bassa rispetto al reranker pointwise Rank1. Attraverso ulteriori esperimenti, il nostro ReasonRank ha raggiunto una performance state-of-the-art (SOTA) di 40.6 sulla leaderboard BRIGHT\footnote{https://brightbenchmark.github.io/.} I nostri codici sono disponibili all'indirizzo https://github.com/8421BCD/ReasonRank.
English
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdeveloped. In this paper, we
first propose an automated reasoning-intensive training data synthesis
framework, which sources training queries and passages from diverse domains and
applies DeepSeek-R1 to generate high-quality training labels. A
self-consistency data filtering mechanism is designed to ensure the data
quality. To empower the listwise reranker with strong reasoning ability, we
further propose a two-stage post-training approach, which includes a cold-start
supervised fine-tuning (SFT) stage for reasoning pattern learning and a
reinforcement learning (RL) stage for further ranking ability enhancement.
During the RL stage, based on the nature of listwise ranking, we design a
multi-view ranking reward, which is more effective than a ranking metric-based
reward. Extensive experiments demonstrate that our trained reasoning-intensive
reranker ReasonRank outperforms existing baselines significantly and
also achieves much lower latency than pointwise reranker Rank1. Through
further experiments, our ReasonRank has achieved state-of-the-art (SOTA)
performance 40.6 on the BRIGHT
leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are
available at https://github.com/8421BCD/ReasonRank.