Youtu-Agent: 자동 생성 및 하이브리드 정책 최적화를 통한 에이전트 생산성 확장
Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization
December 31, 2025
저자: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI
초록
기존 대규모 언어 모델(LLM) 에이전트 프레임워크는 높은 구성 비용과 정적 능력이라는 두 가지 주요 과제에 직면해 있습니다. 고품질 에이전트 구축에는 도구 통합 및 프롬프트 엔지니어링에 대한 방대한 수동 작업이 필요하며, 배포된 에이전트는 고비용의 미세 조정 없이는 동적 환경에 적응하기 어렵습니다. 이러한 문제를 해결하기 위해 우리는 LLM 에이전트의 자동 생성과 지속적 진화를 위해 설계된 모듈식 프레임워크인 Youtu-Agent를 제안합니다. Youtu-Agent는 실행 환경, 도구 키트, 컨텍스트 관리를 분리하여 유연한 재사용과 자동화된 합성을 가능하게 하는 구조화된 구성 시스템을 특징으로 합니다. 우리는 표준 작업을 위한 Workflow 모드와 복잡한 비표준 요구 사항을 위해 도구 코드, 프롬프트, 구성을 자동으로 생성할 수 있는 Meta-Agent 모드라는 두 가지 생성 패러다임을 도입합니다. 더 나아가 Youtu-Agent는 하이브리드 정책 최적화 시스템을 구축합니다: (1) 에이전트가 매개변수 업데이트 없이 컨텍스트 내 최적화를 통해 경험을 축적하고 성능을 향상시킬 수 있는 Agent Practice 모듈; (2) 분산 훈련 프레임워크와 통합되어 모든 Youtu-Agent의 확장 가능하고 안정적인 엔드투엔드 대규모 강화 학습을 가능하게 하는 Agent RL 모듈. 실험 결과, Youtu-Agent는 오픈 가중치 모델을 사용하여 WebWalkerQA(71.47%)와 GAIA(72.8%)에서 최첨단 성능을 달성함을 보여줍니다. 우리의 자동 생성 파이프라인은 81% 이상의 도구 합성 성공률을 달성한 반면, Practice 모듈은 AIME 2024/2025에서 각각 +2.7%, +5.4%의 성능 향상을 보였습니다. 또한 우리의 Agent RL 훈련은 7B LLM에서 안정적인 성능 향상과 함께 40%의 속도 향상을 달성했으며, 수학 및 일반/다중 홉 QA 벤치마크에서 각각 코딩/추론 및 검색 능력을 최대 35% 및 21% 향상시켰습니다.
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.