ChatPaper.aiChatPaper

DeepAgent: Um Agente de Raciocínio Geral com Conjuntos de Ferramentas Escaláveis

DeepAgent: A General Reasoning Agent with Scalable Toolsets

October 24, 2025
Autores: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI

Resumo

Os grandes modelos de raciocínio demonstraram fortes capacidades de resolução de problemas, mas as tarefas do mundo real frequentemente exigem ferramentas externas e interações de longo horizonte. As estruturas de agentes existentes geralmente seguem fluxos de trabalho predefinidos, o que limita a conclusão autônoma e global de tarefas. Neste artigo, introduzimos o DeepAgent, um agente de raciocínio profundo de ponta a ponta que realiza pensamento autônomo, descoberta de ferramentas e execução de ações dentro de um único processo de raciocínio coerente. Para enfrentar os desafios das interações de longo horizonte, particularmente a explosão no comprimento do contexto devido a múltiplas chamadas de ferramentas e o acúmulo de histórico de interações, introduzimos um mecanismo autônomo de dobramento de memória que comprime interações passadas em memórias estruturadas episódicas, de trabalho e de ferramentas, reduzindo o acúmulo de erros enquanto preserva informações críticas. Para ensinar o uso de ferramentas de propósito geral de forma eficiente e estável, desenvolvemos uma estratégia de aprendizado por reforço de ponta a ponta, denominada ToolPO, que aproveita APIs simuladas por LLM e aplica atribuição de vantagem em chamadas de ferramentas para atribuir crédito refinado aos tokens de invocação de ferramentas. Extensivos experimentos em oito benchmarks, incluindo tarefas de uso geral de ferramentas (ToolBench, API-Bank, TMDB, Spotify, ToolHop) e aplicações downstream (ALFWorld, WebShop, GAIA, HLE), demonstram que o DeepAgent supera consistentemente as linhas de base em ambos os cenários de recuperação de ferramentas rotuladas e de conjunto aberto. Este trabalho dá um passo em direção a agentes mais gerais e capazes para aplicações do mundo real. O código e a demonstração estão disponíveis em https://github.com/RUC-NLPIR/DeepAgent.
English
Large reasoning models have demonstrated strong problem-solving abilities, yet real-world tasks often require external tools and long-horizon interactions. Existing agent frameworks typically follow predefined workflows, which limit autonomous and global task completion. In this paper, we introduce DeepAgent, an end-to-end deep reasoning agent that performs autonomous thinking, tool discovery, and action execution within a single, coherent reasoning process. To address the challenges of long-horizon interactions, particularly the context length explosion from multiple tool calls and the accumulation of interaction history, we introduce an autonomous memory folding mechanism that compresses past interactions into structured episodic, working, and tool memories, reducing error accumulation while preserving critical information. To teach general-purpose tool use efficiently and stably, we develop an end-to-end reinforcement learning strategy, namely ToolPO, that leverages LLM-simulated APIs and applies tool-call advantage attribution to assign fine-grained credit to the tool invocation tokens. Extensive experiments on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank, TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA, HLE), demonstrate that DeepAgent consistently outperforms baselines across both labeled-tool and open-set tool retrieval scenarios. This work takes a step toward more general and capable agents for real-world applications. The code and demo are available at https://github.com/RUC-NLPIR/DeepAgent.
PDF996December 17, 2025