ConvSearch-R1: 推論を活用した強化学習による対話型検索のクエリ再構成の強化
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning
May 21, 2025
著者: Changtai Zhu, Siyin Wang, Ruijun Feng, Kai Song, Xipeng Qiu
cs.AI
要旨
会話型検索システムでは、曖昧性、省略、共参照を含む文脈依存のクエリを効果的に処理する必要があります。Conversational Query Reformulation(CQR)は、これらのクエリを既存の検索エンジンに適した自己完結型の形式に変換することでこの課題に対処します。しかし、既存のCQRアプローチには2つの重大な制約があります:人間のアノテーションや大規模言語モデルからの高コストな外部監視への過度な依存、および書き換えモデルと下流の検索エンジンとの不十分な整合性です。本論文では、ConvSearch-R1を提案します。これは、検索信号を直接最適化する強化学習を活用することで、外部の書き換え監視への依存を完全に排除する初の自律駆動型フレームワークです。我々の新しい2段階アプローチは、検索誘導型自己蒸留を通じてコールドスタート問題に対処するSelf-Driven Policy Warm-Upと、従来の検索指標におけるスパース性問題に対処するために特別に設計されたランクインセンティブ報酬形成メカニズムを備えたRetrieval-Guided Reinforcement Learningを組み合わせています。TopiOCQAおよびQReCCデータセットでの大規模な実験により、ConvSearch-R1が従来の最先端手法を大幅に上回り、難しいTopiOCQAデータセットで10%以上の改善を達成し、外部監視なしでより小規模な3Bパラメータモデルを使用することが実証されました。
English
Conversational search systems require effective handling of context-dependent
queries that often contain ambiguity, omission, and coreference. Conversational
Query Reformulation (CQR) addresses this challenge by transforming these
queries into self-contained forms suitable for off-the-shelf retrievers.
However, existing CQR approaches suffer from two critical constraints: high
dependency on costly external supervision from human annotations or large
language models, and insufficient alignment between the rewriting model and
downstream retrievers. We present ConvSearch-R1, the first self-driven
framework that completely eliminates dependency on external rewrite supervision
by leveraging reinforcement learning to optimize reformulation directly through
retrieval signals. Our novel two-stage approach combines Self-Driven Policy
Warm-Up to address the cold-start problem through retrieval-guided
self-distillation, followed by Retrieval-Guided Reinforcement Learning with a
specially designed rank-incentive reward shaping mechanism that addresses the
sparsity issue in conventional retrieval metrics. Extensive experiments on
TopiOCQA and QReCC datasets demonstrate that ConvSearch-R1 significantly
outperforms previous state-of-the-art methods, achieving over 10% improvement
on the challenging TopiOCQA dataset while using smaller 3B parameter models
without any external supervision.Summary
AI-Generated Summary