ChatPaper.aiChatPaper

Youtu-Agent: 自動生成とハイブリッド方策最適化によるエージェント生産性の拡大

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

December 31, 2025
著者: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI

要旨

既存の大規模言語モデル(LLM)エージェントフレームワークは、高い設定コストと静的な能力という2つの重大な課題に直面しています。高品質なエージェントを構築するには、ツール統合やプロンプトエンジニアリングに多大な手作業を要することが多く、一方でデプロイ後のエージェントは、高価なファインチューニングなしでは動的環境に適応できません。これらの問題を解決するため、我々はLLMエージェントの自動生成と継続的進化を目的としたモジュラー型フレームワーク「Youtu-Agent」を提案します。Youtu-Agentは、実行環境、ツールキット、コンテキスト管理を分離する構造化設定システムを特徴とし、柔軟な再利用と自動合成を可能にします。標準タスク向けのワークフローモードと、複雑な非標準要件に対応可能なメタエージェントモードという2つの生成パラダイムを導入し、ツールコード、プロンプト、設定の自動生成を実現します。さらに、Youtu-Agentはハイブリッド方策最適化システムを構築しています:(1)エージェントがパラメータ更新なしで文脈内最適化を通じて経験を蓄積し性能を向上させる「Agent Practice」モジュール、(2)分散トレーニングフレームワークと連携し、あらゆるYoutu-Agentの大規模エンドツーエンド強化学習をスケーラブルかつ安定的に実現する「Agent RL」モジュールです。実験では、Youtu-Agentがオープンウェイトモデルを用いてWebWalkerQA(71.47%)およびGAIA(72.8%)でState-of-the-Art性能を達成しました。自動生成パイプラインは81%以上のツール合成成功率を達成し、PracticeモジュールはAIME 2024/2025においてそれぞれ+2.7%、+5.4%の性能向上を実現しました。さらに、Agent RLトレーニングは7B LLMにおいて40%の高速化と安定した性能向上を達成し、数学および一般/マルチホップQAベンチマークにおいて、それぞれコーディング/推論能力を最大35%、検索能力を21%向上させました。
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.
PDF811January 6, 2026