ReasonRank: Усиление ранжирования текстов с помощью мощных способностей к логическому рассуждению
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
August 9, 2025
Авторы: Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
cs.AI
Аннотация
Ранжирование на основе крупных языковых моделей (LLM) с использованием спискового подхода продемонстрировало превосходную производительность во многих задачах ранжирования текстов. С развитием крупных моделей рассуждений многие исследования показали, что пошаговое рассуждение во время тестирования помогает улучшить производительность спискового ранжирования. Однако из-за недостатка обучающих данных, требующих интенсивного рассуждения, существующие модели переранжирования показывают низкие результаты во многих сложных сценариях ранжирования, а способность к ранжированию моделей, ориентированных на рассуждения, остается в значительной степени недоразвитой. В данной работе мы сначала предлагаем автоматизированную структуру синтеза обучающих данных, требующих интенсивного рассуждения, которая извлекает обучающие запросы и тексты из различных областей и применяет DeepSeek-R1 для генерации высококачественных меток обучения. Механизм фильтрации данных на основе самосогласованности разработан для обеспечения качества данных. Чтобы наделить списковую модель переранжирования сильной способностью к рассуждению, мы дополнительно предлагаем двухэтапный подход пост-обучения, который включает этап начального тонкого обучения с учителем (SFT) для изучения шаблонов рассуждения и этап обучения с подкреплением (RL) для дальнейшего улучшения способности к ранжированию. На этапе RL, основываясь на природе спискового ранжирования, мы разрабатываем награду за ранжирование с учетом нескольких аспектов, которая более эффективна, чем награда, основанная на метриках ранжирования. Многочисленные эксперименты демонстрируют, что наша модель переранжирования, ориентированная на рассуждения, ReasonRank значительно превосходит существующие базовые модели, а также обеспечивает гораздо меньшую задержку по сравнению с поточечной моделью переранжирования Rank1. В ходе дальнейших экспериментов наш ReasonRank достиг наилучшего результата (SOTA) 40.6 на лидерборде BRIGHT\footnote{https://brightbenchmark.github.io/.}. Наш код доступен по адресу https://github.com/8421BCD/ReasonRank.
English
Large Language Model (LLM) based listwise ranking has shown superior
performance in many passage ranking tasks. With the development of Large
Reasoning Models, many studies have demonstrated that step-by-step reasoning
during test-time helps improve listwise ranking performance. However, due to
the scarcity of reasoning-intensive training data, existing rerankers perform
poorly in many complex ranking scenarios and the ranking ability of
reasoning-intensive rerankers remains largely underdeveloped. In this paper, we
first propose an automated reasoning-intensive training data synthesis
framework, which sources training queries and passages from diverse domains and
applies DeepSeek-R1 to generate high-quality training labels. A
self-consistency data filtering mechanism is designed to ensure the data
quality. To empower the listwise reranker with strong reasoning ability, we
further propose a two-stage post-training approach, which includes a cold-start
supervised fine-tuning (SFT) stage for reasoning pattern learning and a
reinforcement learning (RL) stage for further ranking ability enhancement.
During the RL stage, based on the nature of listwise ranking, we design a
multi-view ranking reward, which is more effective than a ranking metric-based
reward. Extensive experiments demonstrate that our trained reasoning-intensive
reranker ReasonRank outperforms existing baselines significantly and
also achieves much lower latency than pointwise reranker Rank1. Through
further experiments, our ReasonRank has achieved state-of-the-art (SOTA)
performance 40.6 on the BRIGHT
leaderboard\footnote{https://brightbenchmark.github.io/.} Our codes are
available at https://github.com/8421BCD/ReasonRank.