ReasonRank: Potenciando la Clasificación de Pasajes con una Fuerte Capacidad de Razonamiento
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
August 9, 2025
Autores: Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
cs.AI
Resumen
El ranking listwise basado en Modelos de Lenguaje de Gran Escala (LLM) ha demostrado un rendimiento superior en muchas tareas de clasificación de pasajes. Con el desarrollo de Modelos de Razonamiento de Gran Escala, muchos estudios han demostrado que el razonamiento paso a paso durante el tiempo de prueba ayuda a mejorar el rendimiento del ranking listwise. Sin embargo, debido a la escasez de datos de entrenamiento intensivos en razonamiento, los rerankers existentes tienen un rendimiento deficiente en muchos escenarios de clasificación complejos, y la capacidad de clasificación de los rerankers intensivos en razonamiento sigue estando en gran medida subdesarrollada. En este artículo, primero proponemos un marco automatizado de síntesis de datos de entrenamiento intensivos en razonamiento, que obtiene consultas y pasajes de entrenamiento de diversos dominios y aplica DeepSeek-R1 para generar etiquetas de entrenamiento de alta calidad. Se diseña un mecanismo de filtrado de datos de autoconsistencia para garantizar la calidad de los datos. Para dotar al reranker listwise de una fuerte capacidad de razonamiento, proponemos además un enfoque de post-entrenamiento en dos etapas, que incluye una etapa de ajuste fino supervisado (SFT) de arranque en frío para el aprendizaje de patrones de razonamiento y una etapa de aprendizaje por refuerzo (RL) para una mayor mejora de la capacidad de clasificación. Durante la etapa de RL, basándonos en la naturaleza del ranking listwise, diseñamos una recompensa de clasificación multi-vista, que es más efectiva que una recompensa basada en métricas de clasificación. Experimentos extensos demuestran que nuestro reranker intensivo en razonamiento entrenado, ReasonRank, supera significativamente a los baselines existentes y también logra una latencia mucho menor que el reranker pointwise Rank1. A través de más experimentos, nuestro ReasonRank ha alcanzado un rendimiento de vanguardia (SOTA) de 40.6 en el leaderboard BRIGHT\footnote{https://brightbenchmark.github.io/.} Nuestros códigos están disponibles en https://github.com/8421BCD/ReasonRank.
English
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdeveloped. In this paper, we
first propose an automated reasoning-intensive training data synthesis
framework, which sources training queries and passages from diverse domains and
applies DeepSeek-R1 to generate high-quality training labels. A
self-consistency data filtering mechanism is designed to ensure the data
quality. To empower the listwise reranker with strong reasoning ability, we
further propose a two-stage post-training approach, which includes a cold-start
supervised fine-tuning (SFT) stage for reasoning pattern learning and a
reinforcement learning (RL) stage for further ranking ability enhancement.
During the RL stage, based on the nature of listwise ranking, we design a
multi-view ranking reward, which is more effective than a ranking metric-based
reward. Extensive experiments demonstrate that our trained reasoning-intensive
reranker ReasonRank outperforms existing baselines significantly and
also achieves much lower latency than pointwise reranker Rank1. Through
further experiments, our ReasonRank has achieved state-of-the-art (SOTA)
performance 40.6 on the BRIGHT
leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are
available at https://github.com/8421BCD/ReasonRank.