DeepAgent: Универсальный агент логического вывода с масштабируемыми наборами инструментов
DeepAgent: A General Reasoning Agent with Scalable Toolsets
October 24, 2025
Авторы: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI
Аннотация
Крупные модели рассуждений продемонстрировали высокие способности к решению задач, однако реальные задачи часто требуют использования внешних инструментов и долгосрочных взаимодействий. Существующие агентские фреймворки обычно следуют предопределенным рабочим процессам, что ограничивает автономное и глобальное выполнение задач. В данной статье мы представляем DeepAgent — энд-ту-энд агент глубокого рассуждения, который выполняет автономное мышление, обнаружение инструментов и выполнение действий в рамках единого связного процесса рассуждений. Для решения проблем долгосрочных взаимодействий, в частности взрывного роста длины контекста из-за множественных вызовов инструментов и накопления истории взаимодействий, мы предлагаем механизм автономного сворачивания памяти, который сжимает прошлые взаимодействия в структурированные эпизодическую, рабочую и инструментальную памяти, снижая накопление ошибок при сохранении критически важной информации. Для эффективного и стабильного обучения универсальному использованию инструментов мы разработали энд-ту-энд стратегию обучения с подкреплением ToolPO, которая использует API, симулированные с помощью LLM, и применяет атрибуцию преимущества вызова инструментов для назначения детализированного кредита токенам вызова инструментов. Многочисленные эксперименты на восьми бенчмарках, включая задачи общего использования инструментов (ToolBench, API-Bank, TMDB, Spotify, ToolHop) и прикладные задачи (ALFWorld, WebShop, GAIA, HLE), демонстрируют, что DeepAgent стабильно превосходит базовые методы как в сценариях с размеченными инструментами, так и в сценариях открытого поиска инструментов. Данная работа представляет шаг в сторону создания более универсальных и эффективных агентов для реальных приложений. Код и демонстрация доступны по адресу https://github.com/RUC-NLPIR/DeepAgent.
English
Large reasoning models have demonstrated strong problem-solving abilities,
yet real-world tasks often require external tools and long-horizon
interactions. Existing agent frameworks typically follow predefined workflows,
which limit autonomous and global task completion. In this paper, we introduce
DeepAgent, an end-to-end deep reasoning agent that performs autonomous
thinking, tool discovery, and action execution within a single, coherent
reasoning process. To address the challenges of long-horizon interactions,
particularly the context length explosion from multiple tool calls and the
accumulation of interaction history, we introduce an autonomous memory folding
mechanism that compresses past interactions into structured episodic, working,
and tool memories, reducing error accumulation while preserving critical
information. To teach general-purpose tool use efficiently and stably, we
develop an end-to-end reinforcement learning strategy, namely ToolPO, that
leverages LLM-simulated APIs and applies tool-call advantage attribution to
assign fine-grained credit to the tool invocation tokens. Extensive experiments
on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank,
TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA,
HLE), demonstrate that DeepAgent consistently outperforms baselines across both
labeled-tool and open-set tool retrieval scenarios. This work takes a step
toward more general and capable agents for real-world applications. The code
and demo are available at https://github.com/RUC-NLPIR/DeepAgent.