ChatPaper.aiChatPaper

ReasonRank: Capacitando a Classificação de Passagens com Forte Habilidade de Raciocínio

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

August 9, 2025
Autores: Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
cs.AI

Resumo

A classificação listwise baseada em Large Language Models (LLMs) tem demonstrado desempenho superior em muitas tarefas de ranqueamento de passagens. Com o desenvolvimento dos Large Reasoning Models, muitos estudos têm mostrado que o raciocínio passo a passo durante o tempo de teste ajuda a melhorar o desempenho da classificação listwise. No entanto, devido à escassez de dados de treinamento intensivos em raciocínio, os rerankers existentes têm um desempenho ruim em muitos cenários complexos de ranqueamento, e a capacidade de ranqueamento dos rerankers intensivos em raciocínio permanece amplamente subdesenvolvida. Neste artigo, propomos primeiro um framework automatizado de síntese de dados de treinamento intensivos em raciocínio, que obtém consultas e passagens de treinamento de diversos domínios e aplica o DeepSeek-R1 para gerar rótulos de treinamento de alta qualidade. Um mecanismo de filtragem de dados baseado em auto-consistência é projetado para garantir a qualidade dos dados. Para capacitar o reranker listwise com uma forte habilidade de raciocínio, propomos ainda uma abordagem de pós-treinamento em duas etapas, que inclui uma etapa de fine-tuning supervisionado (SFT) de cold-start para aprendizado de padrões de raciocínio e uma etapa de aprendizado por reforço (RL) para aprimoramento adicional da capacidade de ranqueamento. Durante a etapa de RL, com base na natureza da classificação listwise, projetamos uma recompensa de ranqueamento multi-visão, que é mais eficaz do que uma recompensa baseada em métricas de ranqueamento. Experimentos extensivos demonstram que nosso reranker intensivo em raciocínio, ReasonRank, supera significativamente as baselines existentes e também alcança uma latência muito menor do que o reranker pointwise Rank1. Através de experimentos adicionais, nosso ReasonRank alcançou um desempenho state-of-the-art (SOTA) de 40.6 no leaderboard BRIGHT\footnote{https://brightbenchmark.github.io/.}. Nossos códigos estão disponíveis em https://github.com/8421BCD/ReasonRank.
English
Large Language Model (LLM) based listwise ranking has shown superior performance in many passage ranking tasks. With the development of Large Reasoning Models, many studies have demonstrated that step-by-step reasoning during test-time helps improve listwise ranking performance. However, due to the scarcity of reasoning-intensive training data, existing rerankers perform poorly in many complex ranking scenarios and the ranking ability of reasoning-intensive rerankers remains largely underdeveloped. In this paper, we first propose an automated reasoning-intensive training data synthesis framework, which sources training queries and passages from diverse domains and applies DeepSeek-R1 to generate high-quality training labels. A self-consistency data filtering mechanism is designed to ensure the data quality. To empower the listwise reranker with strong reasoning ability, we further propose a two-stage post-training approach, which includes a cold-start supervised fine-tuning (SFT) stage for reasoning pattern learning and a reinforcement learning (RL) stage for further ranking ability enhancement. During the RL stage, based on the nature of listwise ranking, we design a multi-view ranking reward, which is more effective than a ranking metric-based reward. Extensive experiments demonstrate that our trained reasoning-intensive reranker ReasonRank outperforms existing baselines significantly and also achieves much lower latency than pointwise reranker Rank1. Through further experiments, our ReasonRank has achieved state-of-the-art (SOTA) performance 40.6 on the BRIGHT leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are available at https://github.com/8421BCD/ReasonRank.
PDF1144August 12, 2025