DeepAgent: 확장 가능한 도구 세트를 갖춘 범용 추론 에이전트
DeepAgent: A General Reasoning Agent with Scalable Toolsets
October 24, 2025
저자: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Guanting Dong, Jiajie Jin, Yinuo Wang, Hao Wang, Yutao Zhu, Ji-Rong Wen, Yuan Lu, Zhicheng Dou
cs.AI
초록
대규모 추론 모델은 강력한 문제 해결 능력을 보여주었으나, 현실 세계의 과제들은 종종 외부 도구 활용과 장기적 상호작용을 필요로 합니다. 기존 에이전트 프레임워크는 일반적으로 미리 정의된 워크플로우를 따르므로, 자율적이고 포괄적인 과제 수행이 제한됩니다. 본 논문에서는 단일하고 일관된 추론 과정 내에서 자율적 사고, 도구 발견, 행동 실행을 수행하는 종단간 심층 추론 에이전트인 DeepAgent를 소개합니다. 장기적 상호작용의 과제, 특히 다중 도구 호출로 인한 컨텍스트 길이 폭증 및 상호작용 이력 누적 문제를 해결하기 위해, 과거 상호작용을 구조화된 서사적 기억, 작업 기억, 도구 기억으로 압축하여 중요한 정보를 보존하면서 오류 누적을 줄이는 자율 메모리 접기 메커니즘을 도입했습니다. 범용 도구 사용을 효율적이고 안정적으로 학습시키기 위해, LLM으로 시뮬레이션된 API를 활용하고 도구 호출 토큰에 세분화된 기여도를 할당하기 위해 도구 호출 장점 귀속을 적용하는 종단간 강화 학습 전략인 ToolPO를 개발했습니다. 일반 도구 사용 과제(ToolBench, API-Bank, TMDB, Spotify, ToolHop)와 하류 응용 프로그램(ALFWorld, WebShop, GAIA, HLE)을 포함한 8개 벤치마크에서의 광범위한 실험을 통해 DeepAgent가 레이블이 지정된 도구 및 오픈셋 도구 검색 시나리오 모두에서 기준선을 꾸준히 능가함을 입증했습니다. 본 연구는 현실 세계 응용을 위한 보다 일반적이고 유능한 에이전트로 나아가는 한 걸음을 내디뎠습니다. 코드와 데모는 https://github.com/RUC-NLPIR/DeepAgent에서 확인할 수 있습니다.
English
Large reasoning models have demonstrated strong problem-solving abilities,
yet real-world tasks often require external tools and long-horizon
interactions. Existing agent frameworks typically follow predefined workflows,
which limit autonomous and global task completion. In this paper, we introduce
DeepAgent, an end-to-end deep reasoning agent that performs autonomous
thinking, tool discovery, and action execution within a single, coherent
reasoning process. To address the challenges of long-horizon interactions,
particularly the context length explosion from multiple tool calls and the
accumulation of interaction history, we introduce an autonomous memory folding
mechanism that compresses past interactions into structured episodic, working,
and tool memories, reducing error accumulation while preserving critical
information. To teach general-purpose tool use efficiently and stably, we
develop an end-to-end reinforcement learning strategy, namely ToolPO, that
leverages LLM-simulated APIs and applies tool-call advantage attribution to
assign fine-grained credit to the tool invocation tokens. Extensive experiments
on eight benchmarks, including general tool-use tasks (ToolBench, API-Bank,
TMDB, Spotify, ToolHop) and downstream applications (ALFWorld, WebShop, GAIA,
HLE), demonstrate that DeepAgent consistently outperforms baselines across both
labeled-tool and open-set tool retrieval scenarios. This work takes a step
toward more general and capable agents for real-world applications. The code
and demo are available at https://github.com/RUC-NLPIR/DeepAgent.