DeepAgent: Un Agente di Ragionamento Generale con Set di Strumenti Scalabili
DeepAgent: A General Reasoning Agent with Scalable Toolsets
October 24, 2025
Autori: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI
Abstract
I grandi modelli di ragionamento hanno dimostrato notevoli capacità di problem solving, tuttavia i compiti del mondo reale richiedono spesso strumenti esterni e interazioni a lungo termine. I framework per agenti esistenti seguono generalmente flussi di lavoro predefiniti, limitando il completamento autonomo e globale dei task. In questo articolo presentiamo DeepAgent, un agente di ragionamento profondo end-to-end che esegue pensiero autonomo, scoperta di strumenti ed esecuzione di azioni all'interno di un unico processo di ragionamento coerente. Per affrontare le sfide delle interazioni a lungo termine, in particolare l'esplosione della lunghezza del contesto dovuta a chiamate multiple a strumenti e l'accumulo della cronologia interattiva, introduciamo un meccanismo autonomo di ripiegamento della memoria che comprime le interazioni passate in memorie episodiche, di lavoro e di strumento strutturate, riducendo l'accumulo di errori preservando al contempo le informazioni critiche. Per insegnare l'uso di strumenti generici in modo efficiente e stabile, sviluppiamo una strategia di apprendimento per rinforzo end-to-end, denominata ToolPO, che sfrutta API simulate da LLM e applica l'attribuzione del vantaggio delle chiamate agli strumenti per assegnare credito granulare ai token di invocazione. Esperimenti estesi su otto benchmark, inclusi compiti di uso generico di strumenti (ToolBench, API-Bank, TMDB, Spotify, ToolHop) e applicazioni downstream (ALFWorld, WebShop, GAIA, HLE), dimostrano che DeepAgent supera costantemente i baseline sia in scenari di recupero di strumenti etichettati che a insieme aperto. Questo lavoro rappresenta un passo verso agenti più generali e capaci per applicazioni nel mondo reale. Il codice e la demo sono disponibili su https://github.com/RUC-NLPIR/DeepAgent.
English
Large reasoning models have demonstrated strong problem-solving abilities,
yet real-world tasks often require external tools and long-horizon
interactions. Existing agent frameworks typically follow predefined workflows,
which limit autonomous and global task completion. In this paper, we introduce
DeepAgent, an end-to-end deep reasoning agent that performs autonomous
thinking, tool discovery, and action execution within a single, coherent
reasoning process. To address the challenges of long-horizon interactions,
particularly the context length explosion from multiple tool calls and the
accumulation of interaction history, we introduce an autonomous memory folding
mechanism that compresses past interactions into structured episodic, working,
and tool memories, reducing error accumulation while preserving critical
information. To teach general-purpose tool use efficiently and stably, we
develop an end-to-end reinforcement learning strategy, namely ToolPO, that
leverages LLM-simulated APIs and applies tool-call advantage attribution to
assign fine-grained credit to the tool invocation tokens. Extensive experiments
on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank,
TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA,
HLE), demonstrate that DeepAgent consistently outperforms baselines across both
labeled-tool and open-set tool retrieval scenarios. This work takes a step
toward more general and capable agents for real-world applications. The code
and demo are available at https://github.com/RUC-NLPIR/DeepAgent.