ReasonRank: Stärkung der Passagenbewertung durch ausgeprägte Fähigkeiten zur logischen Schlussfolgerung
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
August 9, 2025
papers.authors: Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
cs.AI
papers.abstract
Listenweise Rangfolge basierend auf Large Language Models (LLM) hat in vielen Aufgaben zur Passage-Rangfolge überlegene Leistung gezeigt. Mit der Entwicklung von Large Reasoning Models haben viele Studien demonstriert, dass schrittweises Reasoning während der Testzeit die Leistung der listenweisen Rangfolge verbessert. Aufgrund der Knappheit von reasoning-intensiven Trainingsdaten schneiden bestehende Reranker jedoch in vielen komplexen Ranking-Szenarien schlecht ab, und die Ranking-Fähigkeit von reasoning-intensiven Rerankern bleibt weitgehend unterentwickelt. In diesem Artikel schlagen wir zunächst ein automatisiertes Framework zur Synthese von reasoning-intensiven Trainingsdaten vor, das Trainingsanfragen und Passagen aus verschiedenen Domänen bezieht und DeepSeek-R1 zur Generierung hochwertiger Trainingslabels anwendet. Ein Selbstkonsistenz-Datenfiltermechanismus wurde entwickelt, um die Datenqualität sicherzustellen. Um den listenweisen Reranker mit starker Reasoning-Fähigkeit auszustatten, schlagen wir weiterhin einen zweistufigen Post-Training-Ansatz vor, der eine Cold-Start-supervised Fine-Tuning (SFT)-Phase zum Erlernen von Reasoning-Mustern und eine Reinforcement Learning (RL)-Phase zur weiteren Verbesserung der Ranking-Fähigkeit umfasst. Während der RL-Phase entwerfen wir basierend auf der Natur der listenweisen Rangfolge eine Multi-View-Ranking-Belohnung, die effektiver ist als eine auf Ranking-Metriken basierende Belohnung. Umfangreiche Experimente zeigen, dass unser trainierter reasoning-intensiver Reranker ReasonRank bestehende Baselines deutlich übertrifft und auch eine viel geringere Latenzzeit als der punktweise Reranker Rank1 erreicht. Durch weitere Experimente hat unser ReasonRank eine state-of-the-art (SOTA)-Leistung von 40,6 auf der BRIGHT-Leaderboard\footnote{https://brightbenchmark.github.io/.} erzielt. Unsere Codes sind verfügbar unter https://github.com/8421BCD/ReasonRank.
English
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdeveloped. In this paper, we
first propose an automated reasoning-intensive training data synthesis
framework, which sources training queries and passages from diverse domains and
applies DeepSeek-R1 to generate high-quality training labels. A
self-consistency data filtering mechanism is designed to ensure the data
quality. To empower the listwise reranker with strong reasoning ability, we
further propose a two-stage post-training approach, which includes a cold-start
supervised fine-tuning (SFT) stage for reasoning pattern learning and a
reinforcement learning (RL) stage for further ranking ability enhancement.
During the RL stage, based on the nature of listwise ranking, we design a
multi-view ranking reward, which is more effective than a ranking metric-based
reward. Extensive experiments demonstrate that our trained reasoning-intensive
reranker ReasonRank outperforms existing baselines significantly and
also achieves much lower latency than pointwise reranker Rank1. Through
further experiments, our ReasonRank has achieved state-of-the-art (SOTA)
performance 40.6 on the BRIGHT
leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are
available at https://github.com/8421BCD/ReasonRank.