SFR-DeepResearch: Verso un Apprendimento per Rinforzo Efficace per Agenti Singoli con Ragionamento Autonomo
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents
September 8, 2025
Autori: Xuan-Phi Nguyen, Shrey Pandit, Revanth Gangi Reddy, Austin Xu, Silvio Savarese, Caiming Xiong, Shafiq Joty
cs.AI
Abstract
Dotare i grandi modelli linguistici (LLM) di capacità complesse e interconnesse di ragionamento e utilizzo di strumenti è diventato un obiettivo chiave nella ricerca sull'IA agentica, specialmente con i recenti progressi nei modelli orientati al ragionamento (``pensiero''). Tali capacità sono fondamentali per sbloccare numerose applicazioni importanti. Una di queste è la Ricerca Approfondita (Deep Research, DR), che richiede un'estesa ricerca e ragionamento su molteplici fonti. Il nostro lavoro in questo articolo si concentra sullo sviluppo di modelli autonomi a singolo agente nativi per la DR, caratterizzati da un minimo crawling web e integrazione di strumenti Python. A differenza dei sistemi multi-agente, in cui gli agenti assumono ruoli predefiniti e ricevono istruzioni su cosa fare in ogni fase di un flusso di lavoro statico, un agente singolo autonomo determina la sua prossima azione dinamicamente in base al contesto, senza direttive manuali. Mentre lavori precedenti hanno proposto ricette di addestramento per LLM di base o ottimizzati per istruzioni, noi ci concentriamo sull'apprendimento per rinforzo continuo (RL) di modelli ottimizzati per il ragionamento, al fine di migliorare ulteriormente le capacità agentiche preservando la capacità di ragionamento. A tal fine, proponiamo una semplice ricetta RL con dati interamente sintetici, che applichiamo a vari LLM open-source. La nostra variante migliore, SFR-DR-20B, raggiunge fino al 28,7% sul benchmark Humanity's Last Exam. Inoltre, conduciamo esperimenti di analisi chiave per fornire ulteriori approfondimenti sulle nostre metodologie.
English
Equipping large language models (LLMs) with complex, interleaved reasoning
and tool-use capabilities has become a key focus in agentic AI research,
especially with recent advances in reasoning-oriented (``thinking'') models.
Such capabilities are key to unlocking a number of important applications. One
such application is Deep Research (DR), which requires extensive search and
reasoning over many sources. Our work in this paper focuses on the development
of native Autonomous Single-Agent models for DR featuring minimal web crawling
and Python tool integration. Unlike multi-agent systems, where agents take up
pre-defined roles and are told what to do at each step in a static workflow, an
autonomous single-agent determines its next action dynamically based on
context, without manual directive. While prior work has proposed training
recipes for base or instruction-tuned LLMs, we focus on continual reinforcement
learning (RL) of reasoning-optimized models to further enhance agentic skills
while preserving reasoning ability. Towards this end, we propose a simple RL
recipe with entirely synthetic data, which we apply to various open-source
LLMs. Our best variant SFR-DR-20B achieves up to 28.7% on Humanity's Last Exam
benchmark. In addition, we conduct key analysis experiments to provide more
insights into our methodologies.