ChatPaper.aiChatPaper

DeepAgent: Ein allgemeiner Denkagent mit skalierbaren Werkzeugen

DeepAgent: A General Reasoning Agent with Scalable Toolsets

October 24, 2025
papers.authors: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI

papers.abstract

Große Reasoning-Modelle haben beeindruckende Fähigkeiten zur Problemlösung demonstriert, doch reale Aufgaben erfordern oft externe Werkzeuge und langfristige Interaktionen. Bestehende Agenten-Frameworks folgen typischerweise vordefinierten Arbeitsabläufen, was autonome und globale Aufgabenbearbeitung einschränkt. In dieser Arbeit stellen wir DeepAgent vor, einen End-to-End Deep-Reasoning-Agenten, der autonomes Denken, Werkzeugentdeckung und Aktionsausführung innerhalb eines einzigen kohärenten Reasoning-Prozesses durchführt. Um die Herausforderungen langfristiger Interaktionen zu bewältigen, insbesondere die Explosion der Kontextlänge durch multiple Werkzeugaufrufe und die Anhäufung von Interaktionshistorie, führen wir einen autonomen Memory-Folding-Mechanismus ein, der vergangene Interaktionen in strukturierte episodische, Arbeits- und Werkzeuggedächtnisse komprimiert, wodurch Fehlerakkumulation reduziert wird, während kritische Informationen erhalten bleiben. Um allgemeine Werkzeugnutzung effizient und stabil zu vermitteln, entwickeln wir eine End-to-End-Verstärkungslernstrategie namens ToolPO, die LLM-simulierte APIs nutzt und Tool-Call-Vorteilsattribution anwendet, um feingranulare Verdienste den Werkzeugaufruf-Tokens zuzuordnen. Umfangreiche Experimente auf acht Benchmarks, einschließlich allgemeiner Werkzeugnutzungsaufgaben (ToolBench, API-Bank, TMDB, Spotify, ToolHop) und nachgelagerter Anwendungen (ALFWorld, WebShop, GAIA, HLE), demonstrieren, dass DeepAgent durchgängig Baseline-Methoden in sowohl beschrifteten als auch Open-Set-Werkzeugabrufszenarien übertrifft. Diese Arbeit macht einen Schritt hin zu allgemeineren und leistungsfähigeren Agenten für reale Anwendungen. Der Code und die Demo sind verfügbar unter https://github.com/RUC-NLPIR/DeepAgent.
English
Large reasoning models have demonstrated strong problem-solving abilities, yet real-world tasks often require external tools and long-horizon interactions. Existing agent frameworks typically follow predefined workflows, which limit autonomous and global task completion. In this paper, we introduce DeepAgent, an end-to-end deep reasoning agent that performs autonomous thinking, tool discovery, and action execution within a single, coherent reasoning process. To address the challenges of long-horizon interactions, particularly the context length explosion from multiple tool calls and the accumulation of interaction history, we introduce an autonomous memory folding mechanism that compresses past interactions into structured episodic, working, and tool memories, reducing error accumulation while preserving critical information. To teach general-purpose tool use efficiently and stably, we develop an end-to-end reinforcement learning strategy, namely ToolPO, that leverages LLM-simulated APIs and applies tool-call advantage attribution to assign fine-grained credit to the tool invocation tokens. Extensive experiments on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank, TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA, HLE), demonstrate that DeepAgent consistently outperforms baselines across both labeled-tool and open-set tool retrieval scenarios. This work takes a step toward more general and capable agents for real-world applications. The code and demo are available at https://github.com/RUC-NLPIR/DeepAgent.
PDF996December 17, 2025