ReasonRank : Renforcer le classement de passages grâce à une solide capacité de raisonnement
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
August 9, 2025
papers.authors: Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
cs.AI
papers.abstract
Le classement par liste basé sur les modèles de langage de grande taille (LLM) a démontré des performances supérieures dans de nombreuses tâches de classement de passages. Avec le développement des modèles de raisonnement de grande taille, de nombreuses études ont montré que le raisonnement étape par étape pendant le temps de test contribue à améliorer les performances du classement par liste. Cependant, en raison de la rareté des données d'entraînement intensives en raisonnement, les reclassificateurs existants obtiennent de mauvais résultats dans de nombreux scénarios de classement complexes, et la capacité de classement des reclassificateurs intensifs en raisonnement reste largement sous-développée. Dans cet article, nous proposons d'abord un cadre automatisé de synthèse de données d'entraînement intensives en raisonnement, qui puise des requêtes et des passages d'entraînement dans divers domaines et applique DeepSeek-R1 pour générer des étiquettes d'entraînement de haute qualité. Un mécanisme de filtrage des données par auto-cohérence est conçu pour garantir la qualité des données. Pour doter le reclassificateur par liste d'une forte capacité de raisonnement, nous proposons en outre une approche d'entraînement postérieur en deux étapes, comprenant une étape de réglage fin supervisé (SFT) à froid pour l'apprentissage des modèles de raisonnement et une étape d'apprentissage par renforcement (RL) pour améliorer davantage la capacité de classement. Durant l'étape RL, en nous basant sur la nature du classement par liste, nous concevons une récompense de classement multi-vues, qui s'avère plus efficace qu'une récompense basée sur une métrique de classement. Des expériences approfondies démontrent que notre reclassificateur intensif en raisonnement ReasonRank surpasse significativement les bases de référence existantes et obtient également une latence bien inférieure à celle du reclassificateur ponctuel Rank1. À travers des expériences supplémentaires, notre ReasonRank a atteint une performance de pointe (SOTA) de 40,6 sur le tableau de bord BRIGHT\footnote{https://brightbenchmark.github.io/.} Nos codes sont disponibles à l'adresse https://github.com/8421BCD/ReasonRank.
English
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdeveloped. In this paper, we
first propose an automated reasoning-intensive training data synthesis
framework, which sources training queries and passages from diverse domains and
applies DeepSeek-R1 to generate high-quality training labels. A
self-consistency data filtering mechanism is designed to ensure the data
quality. To empower the listwise reranker with strong reasoning ability, we
further propose a two-stage post-training approach, which includes a cold-start
supervised fine-tuning (SFT) stage for reasoning pattern learning and a
reinforcement learning (RL) stage for further ranking ability enhancement.
During the RL stage, based on the nature of listwise ranking, we design a
multi-view ranking reward, which is more effective than a ranking metric-based
reward. Extensive experiments demonstrate that our trained reasoning-intensive
reranker ReasonRank outperforms existing baselines significantly and
also achieves much lower latency than pointwise reranker Rank1. Through
further experiments, our ReasonRank has achieved state-of-the-art (SOTA)
performance 40.6 on the BRIGHT
leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are
available at https://github.com/8421BCD/ReasonRank.