DeepAgent: Универсальный агент логического вывода с масштабируемыми наборами инструментов

Аннотация

Крупные модели рассуждений продемонстрировали высокие способности к решению задач, однако реальные задачи часто требуют использования внешних инструментов и долгосрочных взаимодействий. Существующие агентские фреймворки обычно следуют предопределенным рабочим процессам, что ограничивает автономное и глобальное выполнение задач. В данной статье мы представляем DeepAgent — энд-ту-энд агент глубокого рассуждения, который выполняет автономное мышление, обнаружение инструментов и выполнение действий в рамках единого связного процесса рассуждений. Для решения проблем долгосрочных взаимодействий, в частности взрывного роста длины контекста из-за множественных вызовов инструментов и накопления истории взаимодействий, мы предлагаем механизм автономного сворачивания памяти, который сжимает прошлые взаимодействия в структурированные эпизодическую, рабочую и инструментальную памяти, снижая накопление ошибок при сохранении критически важной информации. Для эффективного и стабильного обучения универсальному использованию инструментов мы разработали энд-ту-энд стратегию обучения с подкреплением ToolPO, которая использует API, симулированные с помощью LLM, и применяет атрибуцию преимущества вызова инструментов для назначения детализированного кредита токенам вызова инструментов. Многочисленные эксперименты на восьми бенчмарках, включая задачи общего использования инструментов (ToolBench, API-Bank, TMDB, Spotify, ToolHop) и прикладные задачи (ALFWorld, WebShop, GAIA, HLE), демонстрируют, что DeepAgent стабильно превосходит базовые методы как в сценариях с размеченными инструментами, так и в сценариях открытого поиска инструментов. Данная работа представляет шаг в сторону создания более универсальных и эффективных агентов для реальных приложений. Код и демонстрация доступны по адресу https://github.com/RUC-NLPIR/DeepAgent.

English

Large reasoning models have demonstrated strong problem-solving abilities, yet real-world tasks often require external tools and long-horizon interactions. Existing agent frameworks typically follow predefined workflows, which limit autonomous and global task completion. In this paper, we introduce DeepAgent, an end-to-end deep reasoning agent that performs autonomous thinking, tool discovery, and action execution within a single, coherent reasoning process. To address the challenges of long-horizon interactions, particularly the context length explosion from multiple tool calls and the accumulation of interaction history, we introduce an autonomous memory folding mechanism that compresses past interactions into structured episodic, working, and tool memories, reducing error accumulation while preserving critical information. To teach general-purpose tool use efficiently and stably, we develop an end-to-end reinforcement learning strategy, namely ToolPO, that leverages LLM-simulated APIs and applies tool-call advantage attribution to assign fine-grained credit to the tool invocation tokens. Extensive experiments on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank, TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA, HLE), demonstrate that DeepAgent consistently outperforms baselines across both labeled-tool and open-set tool retrieval scenarios. This work takes a step toward more general and capable agents for real-world applications. The code and demo are available at https://github.com/RUC-NLPIR/DeepAgent.

DeepAgent: Универсальный агент логического вывода с масштабируемыми наборами инструментов

DeepAgent: A General Reasoning Agent with Scalable Toolsets

Аннотация

Support