ChatPaper.aiChatPaper

DeepAgent: スケーラブルなツールセットを備えた汎用推論エージェント

DeepAgent: A General Reasoning Agent with Scalable Toolsets

October 24, 2025
著者: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI

要旨

大規模推論モデルは強力な問題解決能力を示しているが、現実世界のタスクでは外部ツールの利用と長期的な相互作用が求められることが多い。既存のエージェントフレームワークは通常、事前定義されたワークフローに従うため、自律的かつ全体的なタスク達成が制限されている。本論文では、自律的思考、ツール発見、アクション実行を単一の整合性ある推論プロセス内で行うエンドツーエンドの深層推論エージェント「DeepAgent」を提案する。長期的相互作用の課題、特に複数のツール呼び出しによる文脈長の爆発的増加と相互作用履歴の蓄積に対処するため、過去の相互作用を構造化されたエピソード記憶、作業記憶、ツール記憶に圧縮する自律的記憶折りたたみ機構を導入し、重要な情報を保持しながら誤差蓄積を軽減する。汎用ツール利用を効率的かつ安定的に学習させるため、LLMシミュレートAPIを活用し、ツール呼び出しトークンに細粒度の信用割り当てを行うツール呼び出し優勢属性付与によるエンドツーエンド強化学習戦略「ToolPO」を開発した。汎用ツール利用タスク(ToolBench、API-Bank、TMDB、Spotify、ToolHop)と下流応用(ALFWorld、WebShop、GAIA、HLE)を含む8つのベンチマークでの大規模実験により、DeepAgentがラベル付きツールとオープンセットツール検索の両シナリオにおいて一貫してベースラインを上回ることを実証した。本研究成果は、現実世界応用に向けたより汎用的で高能力なエージェントへの一歩となる。コードとデモはhttps://github.com/RUC-NLPIR/DeepAgentで公開されている。
English
Large reasoning models have demonstrated strong problem-solving abilities, yet real-world tasks often require external tools and long-horizon interactions. Existing agent frameworks typically follow predefined workflows, which limit autonomous and global task completion. In this paper, we introduce DeepAgent, an end-to-end deep reasoning agent that performs autonomous thinking, tool discovery, and action execution within a single, coherent reasoning process. To address the challenges of long-horizon interactions, particularly the context length explosion from multiple tool calls and the accumulation of interaction history, we introduce an autonomous memory folding mechanism that compresses past interactions into structured episodic, working, and tool memories, reducing error accumulation while preserving critical information. To teach general-purpose tool use efficiently and stably, we develop an end-to-end reinforcement learning strategy, namely ToolPO, that leverages LLM-simulated APIs and applies tool-call advantage attribution to assign fine-grained credit to the tool invocation tokens. Extensive experiments on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank, TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA, HLE), demonstrate that DeepAgent consistently outperforms baselines across both labeled-tool and open-set tool retrieval scenarios. This work takes a step toward more general and capable agents for real-world applications. The code and demo are available at https://github.com/RUC-NLPIR/DeepAgent.
PDF996December 17, 2025