R1-Searcher: 強化学習による大規模言語モデルの探索能力の促進
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
March 7, 2025
著者: Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
cs.AI
要旨
既存の大規模推論モデル(LRM)は、強化学習(RL)が大規模言語モデル(LLM)の複雑な推論能力を強化する可能性を示しています。数学やコーディングなどの挑戦的なタスクで顕著な性能を発揮する一方で、これらのモデルは問題を解決するために内部知識に依存することが多く、時間的制約のある知識集約的な質問に対して不十分であり、不正確さや幻覚を引き起こすことがあります。この問題に対処するため、我々はR1-Searcherを提案します。これは、LLMの検索能力を強化するために設計された、新しい二段階の結果ベースのRLアプローチです。この手法により、LLMは推論プロセス中に外部検索システムを自律的に呼び出し、追加の知識にアクセスすることが可能になります。我々のフレームワークは、プロセス報酬や蒸留を必要とせず、RLのみに依存しています。実験結果は、我々の手法が従来の強力なRAG手法を大幅に上回り、クローズドソースのGPT-4o-miniと比較しても優れていることを示しています。
English
Existing Large Reasoning Models (LRMs) have shown the potential of
reinforcement learning (RL) to enhance the complex reasoning capabilities of
Large Language Models~(LLMs). While they achieve remarkable performance on
challenging tasks such as mathematics and coding, they often rely on their
internal knowledge to solve problems, which can be inadequate for
time-sensitive or knowledge-intensive questions, leading to inaccuracies and
hallucinations. To address this, we propose R1-Searcher, a novel
two-stage outcome-based RL approach designed to enhance the search capabilities
of LLMs. This method allows LLMs to autonomously invoke external search systems
to access additional knowledge during the reasoning process. Our framework
relies exclusively on RL, without requiring process rewards or distillation for
a cold start. % effectively generalizing to out-of-domain datasets and
supporting both Base and Instruct models. Our experiments demonstrate that our
method significantly outperforms previous strong RAG methods, even when
compared to the closed-source GPT-4o-mini.Summary
AI-Generated Summary