ReasonRank: Potenciando la Clasificación de Pasajes con una Fuerte Capacidad de Razonamiento

Resumen

El ranking listwise basado en Modelos de Lenguaje de Gran Escala (LLM) ha demostrado un rendimiento superior en muchas tareas de clasificación de pasajes. Con el desarrollo de Modelos de Razonamiento de Gran Escala, muchos estudios han demostrado que el razonamiento paso a paso durante el tiempo de prueba ayuda a mejorar el rendimiento del ranking listwise. Sin embargo, debido a la escasez de datos de entrenamiento intensivos en razonamiento, los rerankers existentes tienen un rendimiento deficiente en muchos escenarios de clasificación complejos, y la capacidad de clasificación de los rerankers intensivos en razonamiento sigue estando en gran medida subdesarrollada. En este artículo, primero proponemos un marco automatizado de síntesis de datos de entrenamiento intensivos en razonamiento, que obtiene consultas y pasajes de entrenamiento de diversos dominios y aplica DeepSeek-R1 para generar etiquetas de entrenamiento de alta calidad. Se diseña un mecanismo de filtrado de datos de autoconsistencia para garantizar la calidad de los datos. Para dotar al reranker listwise de una fuerte capacidad de razonamiento, proponemos además un enfoque de post-entrenamiento en dos etapas, que incluye una etapa de ajuste fino supervisado (SFT) de arranque en frío para el aprendizaje de patrones de razonamiento y una etapa de aprendizaje por refuerzo (RL) para una mayor mejora de la capacidad de clasificación. Durante la etapa de RL, basándonos en la naturaleza del ranking listwise, diseñamos una recompensa de clasificación multi-vista, que es más efectiva que una recompensa basada en métricas de clasificación. Experimentos extensos demuestran que nuestro reranker intensivo en razonamiento entrenado, ReasonRank, supera significativamente a los baselines existentes y también logra una latencia mucho menor que el reranker pointwise Rank1. A través de más experimentos, nuestro ReasonRank ha alcanzado un rendimiento de vanguardia (SOTA) de 40.6 en el leaderboard BRIGHT\footnote{https://brightbenchmark.github.io/.} Nuestros códigos están disponibles en https://github.com/8421BCD/ReasonRank.

English

Large Language Model (LLM) based listwise ranking has shown superior performance in many passage ranking tasks. With the development of Large Reasoning Models, many studies have demonstrated that step-by-step reasoning during test-time helps improve listwise ranking performance. However, due to the scarcity of reasoning-intensive training data, existing rerankers perform poorly in many complex ranking scenarios and the ranking ability of reasoning-intensive rerankers remains largely underdeveloped. In this paper, we first propose an automated reasoning-intensive training data synthesis framework, which sources training queries and passages from diverse domains and applies DeepSeek-R1 to generate high-quality training labels. A self-consistency data filtering mechanism is designed to ensure the data quality. To empower the listwise reranker with strong reasoning ability, we further propose a two-stage post-training approach, which includes a cold-start supervised fine-tuning (SFT) stage for reasoning pattern learning and a reinforcement learning (RL) stage for further ranking ability enhancement. During the RL stage, based on the nature of listwise ranking, we design a multi-view ranking reward, which is more effective than a ranking metric-based reward. Extensive experiments demonstrate that our trained reasoning-intensive reranker ReasonRank outperforms existing baselines significantly and also achieves much lower latency than pointwise reranker Rank1. Through further experiments, our ReasonRank has achieved state-of-the-art (SOTA) performance 40.6 on the BRIGHT leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are available at https://github.com/8421BCD/ReasonRank.

ReasonRank: Potenciando la Clasificación de Pasajes con una Fuerte Capacidad de Razonamiento

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

Resumen

Support