ChatPaper.aiChatPaper

DeepAgent : Un agent de raisonnement général doté d'outils évolutifs

DeepAgent: A General Reasoning Agent with Scalable Toolsets

October 24, 2025
papers.authors: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI

papers.abstract

Les grands modèles de raisonnement ont démontré d'impressionnantes capacités de résolution de problèmes, mais les tâches du monde réel exigent souvent l'utilisation d'outils externes et des interactions à long terme. Les frameworks d'agents existants suivent généralement des workflows prédéfinis, ce qui limite l'autonomie et l'accomplissement global des tâches. Dans cet article, nous présentons DeepAgent, un agent de raisonnement profond de bout en bout qui effectue une réflexion autonome, une découverte d'outils et une exécution d'actions au sein d'un processus de raisonnement unique et cohérent. Pour relever les défis des interactions à long terme, notamment l'explosion de la longueur de contexte due aux appels multiples d'outils et l'accumulation de l'historique des interactions, nous introduisons un mécanisme autonome de repliement mémoire qui compresse les interactions passées en mémoires épisodiques, de travail et d'outils structurées, réduisant ainsi l'accumulation d'erreurs tout en préservant les informations critiques. Pour enseigner efficacement et stablement l'utilisation d'outils généralistes, nous développons une stratégie d'apprentissage par renforcement de bout en bout, nommée ToolPO, qui exploite des API simulées par LLM et applique une attribution d'avantage des appels d'outils pour attribuer un crédit granulaire aux tokens d'invocation d'outils. Des expériences approfondies sur huit benchmarks, incluant des tâches d'utilisation générale d'outils (ToolBench, API-Bank, TMDB, Spotify, ToolHop) et des applications en aval (ALFWorld, WebShop, GAIA, HLE), démontrent que DeepAgent surpasse constamment les méthodes de référence dans les scénarios de récupération d'outils étiquetés et en ensemble ouvert. Ce travail représente un pas vers des agents plus généraux et capables pour les applications réelles. Le code et la démonstration sont disponibles à l'adresse https://github.com/RUC-NLPIR/DeepAgent.
English
Large reasoning models have demonstrated strong problem-solving abilities, yet real-world tasks often require external tools and long-horizon interactions. Existing agent frameworks typically follow predefined workflows, which limit autonomous and global task completion. In this paper, we introduce DeepAgent, an end-to-end deep reasoning agent that performs autonomous thinking, tool discovery, and action execution within a single, coherent reasoning process. To address the challenges of long-horizon interactions, particularly the context length explosion from multiple tool calls and the accumulation of interaction history, we introduce an autonomous memory folding mechanism that compresses past interactions into structured episodic, working, and tool memories, reducing error accumulation while preserving critical information. To teach general-purpose tool use efficiently and stably, we develop an end-to-end reinforcement learning strategy, namely ToolPO, that leverages LLM-simulated APIs and applies tool-call advantage attribution to assign fine-grained credit to the tool invocation tokens. Extensive experiments on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank, TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA, HLE), demonstrate that DeepAgent consistently outperforms baselines across both labeled-tool and open-set tool retrieval scenarios. This work takes a step toward more general and capable agents for real-world applications. The code and demo are available at https://github.com/RUC-NLPIR/DeepAgent.
PDF996December 17, 2025