ConvSearch-R1: Улучшение реформулирования запросов для диалогового поиска с использованием рассуждений через обучение с подкреплением
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning
May 21, 2025
Авторы: Changtai Zhu, Siyin Wang, Ruijun Feng, Kai Song, Xipeng Qiu
cs.AI
Аннотация
Системы контекстного поиска требуют эффективной обработки контекстно-зависимых запросов, которые часто содержат неоднозначность, пропуски и кореференцию. Реформализация контекстных запросов (Conversational Query Reformulation, CQR) решает эту задачу, преобразуя такие запросы в самодостаточные формы, подходящие для стандартных поисковых систем. Однако существующие подходы CQR страдают от двух критических ограничений: высокой зависимости от дорогостоящего внешнего контроля, такого как аннотации от людей или крупные языковые модели, и недостаточного согласования между моделью реформализации и последующими поисковыми системами. Мы представляем ConvSearch-R1 — первую самоуправляемую структуру, которая полностью устраняет зависимость от внешнего контроля за реформализацией, используя обучение с подкреплением для оптимизации преобразования напрямую через сигналы поиска. Наш новый двухэтапный подход сочетает в себе предварительное обучение политики (Self-Driven Policy Warm-Up) для решения проблемы холодного старта через самообучение, направляемое поиском, и обучение с подкреплением, направляемое поиском (Retrieval-Guided Reinforcement Learning), с специально разработанным механизмом формирования вознаграждения, учитывающим ранжирование, который решает проблему разреженности в традиционных метриках поиска. Экстенсивные эксперименты на наборах данных TopiOCQA и QReCC демонстрируют, что ConvSearch-R1 значительно превосходит предыдущие передовые методы, достигая улучшения более чем на 10% на сложном наборе данных TopiOCQA, при этом используя модели с меньшим количеством параметров (3B) без какого-либо внешнего контроля.
English
Conversational search systems require effective handling of context-dependent
queries that often contain ambiguity, omission, and coreference. Conversational
Query Reformulation (CQR) addresses this challenge by transforming these
queries into self-contained forms suitable for off-the-shelf retrievers.
However, existing CQR approaches suffer from two critical constraints: high
dependency on costly external supervision from human annotations or large
language models, and insufficient alignment between the rewriting model and
downstream retrievers. We present ConvSearch-R1, the first self-driven
framework that completely eliminates dependency on external rewrite supervision
by leveraging reinforcement learning to optimize reformulation directly through
retrieval signals. Our novel two-stage approach combines Self-Driven Policy
Warm-Up to address the cold-start problem through retrieval-guided
self-distillation, followed by Retrieval-Guided Reinforcement Learning with a
specially designed rank-incentive reward shaping mechanism that addresses the
sparsity issue in conventional retrieval metrics. Extensive experiments on
TopiOCQA and QReCC datasets demonstrate that ConvSearch-R1 significantly
outperforms previous state-of-the-art methods, achieving over 10% improvement
on the challenging TopiOCQA dataset while using smaller 3B parameter models
without any external supervision.Summary
AI-Generated Summary