SFR-DeepResearch: 자율적 추론을 수행하는 단일 에이전트를 위한 효과적인 강화 학습 연구
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents
September 8, 2025
저자: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI
초록
복잡하고 교차된 추론 및 도구 사용 능력을 대형 언어 모델(LLMs)에 부여하는 것은 에이전트형 AI 연구의 주요 초점이 되었으며, 특히 최근의 추론 중심("사고") 모델의 발전과 더불어 그 중요성이 더욱 부각되고 있습니다. 이러한 능력은 여러 중요한 애플리케이션을 구현하는 데 핵심적인 역할을 합니다. 그 중 하나는 다양한 소스에 대한 광범위한 검색과 추론을 요구하는 딥 리서치(DR)입니다. 본 논문에서는 최소한의 웹 크롤링과 Python 도구 통합을 특징으로 하는 DR을 위한 네이티브 자율 단일 에이전트 모델 개발에 초점을 맞추고 있습니다. 다중 에이전트 시스템이 각 에이전트가 미리 정의된 역할을 맡고 정적 워크플로우에서 각 단계마다 수행할 작업을 지시받는 것과 달리, 자율 단일 에이전트는 수동 지시 없이 컨텍스트에 따라 다음 동작을 동적으로 결정합니다. 기존 연구에서는 기본 또는 지시 튜닝된 LLMs를 위한 학습 레시피를 제안했지만, 우리는 추론 능력을 유지하면서 에이전트 기술을 더욱 강화하기 위해 추론 최적화 모델의 지속적 강화 학습(RL)에 초점을 맞춥니다. 이를 위해 완전히 합성된 데이터를 사용한 간단한 RL 레시피를 제안하고, 이를 다양한 오픈소스 LLMs에 적용합니다. 우리의 최고 성능 변형인 SFR-DR-20B는 Humanity's Last Exam 벤치마크에서 최대 28.7%의 성능을 달성합니다. 또한, 우리의 방법론에 대한 더 깊은 통찰을 제공하기 위해 주요 분석 실험을 수행합니다.
English
Equipping large language models (LLMs) with complex, interleaved reasoning
and tool-use capabilities has become a key focus in agentic AI research,
especially with recent advances in reasoning-oriented (``thinking'') models.
Such capabilities are key to unlocking a number of important applications. One
such application is Deep Research (DR), which requires extensive search and
reasoning over many sources. Our work in this paper focuses on the development
of native Autonomous Single-Agent models for DR featuring minimal web crawling
and Python tool integration. Unlike multi-agent systems, where agents take up
pre-defined roles and are told what to do at each step in a static workflow, an
autonomous single-agent determines its next action dynamically based on
context, without manual directive. While prior work has proposed training
recipes for base or instruction-tuned LLMs, we focus on continual reinforcement
learning (RL) of reasoning-optimized models to further enhance agentic skills
while preserving reasoning ability. Towards this end, we propose a simple RL
recipe with entirely synthetic data, which we apply to various open-source
LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam
benchmark. In addition, we conduct key analysis experiments to provide more
insights into our methodologies.