DeepAgent: Een Algemene Redeneeragent met Schaalbare Hulpmiddelensets
DeepAgent: A General Reasoning Agent with Scalable Toolsets
October 24, 2025
Auteurs: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI
Samenvatting
Grote redeneermodellen hebben sterke probleemoplossende vermogens getoond, maar realistische taken vereisen vaak externe hulpmiddelen en langetermijninteracties. Bestaande agentframeworks volgen doorgaans vooraf gedefinieerde workflows, wat autonome en globale taakvoltooiing beperkt. In dit artikel introduceren we DeepAgent, een end-to-end diepe redeneeragent die autonoom denken, hulpmiddelontdekking en actie-uitvoering uitvoert binnen één coherent redeneerproces. Om de uitdagingen van langetermijninteracties aan te pakken, met name de explosie van contextlengte door meerdere hulpmiddelaanroepen en de opeenstapeling van interactiegeschiedenis, introduceren we een autonoom geheugenopvouwingmechanisme dat eerdere interacties comprimeert tot gestructureerde episodische, werk- en hulpmiddelherinneringen, waardoor foutenaccumulatie wordt verminderd terwijl kritieke informatie behouden blijft. Om algemeen bruikbaar hulpmiddelgebruik efficiënt en stabiel aan te leren, ontwikkelen we een end-to-end versterkingsleerstrategie, genaamd ToolPO, die gebruikmaakt van door LLM gesimuleerde API's en voordeeltoekenning voor hulpmiddelaanroepen toepast om fijnmazige credits toe te wijzen aan de tokens voor hulpmiddelaanroeping. Uitgebreide experimenten op acht benchmarks, inclusief algemene hulpmiddelgebruiktaken (ToolBench, API-Bank, TMDB, Spotify, ToolHop) en downstreamtoepassingen (ALFWorld, WebShop, GAIA, HLE), tonen aan dat DeepAgent consistent beter presteert dan baseline-methoden in zowel gelabelde-hulpmiddel- als open-set-hulpmiddelretrievalscenario's. Dit werk zet een stap richting algemenere en capabelere agents voor realistische toepassingen. De code en demo zijn beschikbaar op https://github.com/RUC-NLPIR/DeepAgent.
English
Large reasoning models have demonstrated strong problem-solving abilities,
yet real-world tasks often require external tools and long-horizon
interactions. Existing agent frameworks typically follow predefined workflows,
which limit autonomous and global task completion. In this paper, we introduce
DeepAgent, an end-to-end deep reasoning agent that performs autonomous
thinking, tool discovery, and action execution within a single, coherent
reasoning process. To address the challenges of long-horizon interactions,
particularly the context length explosion from multiple tool calls and the
accumulation of interaction history, we introduce an autonomous memory folding
mechanism that compresses past interactions into structured episodic, working,
and tool memories, reducing error accumulation while preserving critical
information. To teach general-purpose tool use efficiently and stably, we
develop an end-to-end reinforcement learning strategy, namely ToolPO, that
leverages LLM-simulated APIs and applies tool-call advantage attribution to
assign fine-grained credit to the tool invocation tokens. Extensive experiments
on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank,
TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA,
HLE), demonstrate that DeepAgent consistently outperforms baselines across both
labeled-tool and open-set tool retrieval scenarios. This work takes a step
toward more general and capable agents for real-world applications. The code
and demo are available at https://github.com/RUC-NLPIR/DeepAgent.