DeepAgent: Un Agente de Razonamiento General con Conjuntos de Herramientas Escalables
DeepAgent: A General Reasoning Agent with Scalable Toolsets
October 24, 2025
Autores: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI
Resumen
Los grandes modelos de razonamiento han demostrado una fuerte capacidad de resolución de problemas, pero las tareas del mundo real a menudo requieren herramientas externas e interacciones de largo horizonte. Los marcos de agentes existentes suelen seguir flujos de trabajo predefinidos, lo que limita la finalización autónoma y global de tareas. En este artículo, presentamos DeepAgent, un agente de razonamiento profundo de extremo a extremo que realiza pensamiento autónomo, descubrimiento de herramientas y ejecución de acciones dentro de un único proceso de razonamiento coherente. Para abordar los desafíos de las interacciones de largo horizonte, particularmente la explosión en la longitud del contexto debido a múltiples llamadas a herramientas y la acumulación del historial de interacciones, introducimos un mecanismo autónomo de plegado de memoria que comprime las interacciones pasadas en memorias episódicas, de trabajo y de herramientas estructuradas, reduciendo la acumulación de errores mientras preserva información crítica. Para enseñar el uso de herramientas de propósito general de manera eficiente y estable, desarrollamos una estrategia de aprendizaje por refuerzo de extremo a extremo, denominada ToolPO, que aprovecha APIs simuladas por LLM y aplica atribución de ventaja en llamadas a herramientas para asignar crédito granular a los tokens de invocación de herramientas. Experimentos exhaustivos en ocho benchmarks, incluyendo tareas de uso general de herramientas (ToolBench, API-Bank, TMDB, Spotify, ToolHop) y aplicaciones descendentes (ALFWorld, WebShop, GAIA, HLE), demuestran que DeepAgent supera consistentemente a los baselines tanto en escenarios de recuperación de herramientas etiquetadas como de conjunto abierto. Este trabajo da un paso hacia agentes más generales y capaces para aplicaciones del mundo real. El código y la demo están disponibles en https://github.com/RUC-NLPIR/DeepAgent.
English
Large reasoning models have demonstrated strong problem-solving abilities,
yet real-world tasks often require external tools and long-horizon
interactions. Existing agent frameworks typically follow predefined workflows,
which limit autonomous and global task completion. In this paper, we introduce
DeepAgent, an end-to-end deep reasoning agent that performs autonomous
thinking, tool discovery, and action execution within a single, coherent
reasoning process. To address the challenges of long-horizon interactions,
particularly the context length explosion from multiple tool calls and the
accumulation of interaction history, we introduce an autonomous memory folding
mechanism that compresses past interactions into structured episodic, working,
and tool memories, reducing error accumulation while preserving critical
information. To teach general-purpose tool use efficiently and stably, we
develop an end-to-end reinforcement learning strategy, namely ToolPO, that
leverages LLM-simulated APIs and applies tool-call advantage attribution to
assign fine-grained credit to the tool invocation tokens. Extensive experiments
on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank,
TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA,
HLE), demonstrate that DeepAgent consistently outperforms baselines across both
labeled-tool and open-set tool retrieval scenarios. This work takes a step
toward more general and capable agents for real-world applications. The code
and demo are available at https://github.com/RUC-NLPIR/DeepAgent.