ChatPaper.aiChatPaper

SFR-DeepResearch:自律的に推論を行う単一エージェントのための効果的な強化学習に向けて

SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

September 8, 2025
著者: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI

要旨

大規模言語モデル(LLM)に複雑で連鎖的な推論能力とツール使用能力を備えさせることは、エージェント型AI研究における重要な焦点となっており、特に最近の推論指向(「思考」)モデルの進展に伴いその重要性が増しています。こうした能力は、多くの重要なアプリケーションを実現する鍵となります。その一例が「ディープリサーチ(DR)」であり、これは多数の情報源にわたる広範な検索と推論を必要とします。本論文では、最小限のウェブクローリングとPythonツール統合を特徴とする、DR向けのネイティブな自律型シングルエージェントモデルの開発に焦点を当てています。マルチエージェントシステムでは、エージェントが事前に定義された役割を担い、静的なワークフローの各ステップで何をすべきかを指示されますが、自律型シングルエージェントは、手動の指示なしに文脈に基づいて次のアクションを動的に決定します。これまでの研究では、ベースモデルや指示チューニングされたLLMのトレーニング手法が提案されてきましたが、我々は推論最適化モデルの継続的強化学習(RL)に焦点を当て、エージェントのスキルをさらに向上させながら推論能力を維持することを目指しています。この目的に向けて、我々は完全に合成データを用いたシンプルなRL手法を提案し、これを様々なオープンソースLLMに適用しました。我々の最良のバリアントであるSFR-DR-20Bは、Humanity's Last Examベンチマークで最大28.7%のスコアを達成しました。さらに、我々の手法に関するより深い洞察を提供するために、重要な分析実験を実施しました。
English
Equipping large language models (LLMs) with complex, interleaved reasoning and tool-use capabilities has become a key focus in agentic AI research, especially with recent advances in reasoning-oriented (``thinking'') models. Such capabilities are key to unlocking a number of important applications. One such application is Deep Research (DR), which requires extensive search and reasoning over many sources. Our work in this paper focuses on the development of native Autonomous Single-Agent models for DR featuring minimal web crawling and Python tool integration. Unlike multi-agent systems, where agents take up pre-defined roles and are told what to do at each step in a static workflow, an autonomous single-agent determines its next action dynamically based on context, without manual directive. While prior work has proposed training recipes for base or instruction-tuned LLMs, we focus on continual reinforcement learning (RL) of reasoning-optimized models to further enhance agentic skills while preserving reasoning ability. Towards this end, we propose a simple RL recipe with entirely synthetic data, which we apply to various open-source LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam benchmark. In addition, we conduct key analysis experiments to provide more insights into our methodologies.
PDF82September 9, 2025