Youtu-Agent: Skalierung der Agentenproduktivität durch automatisierte Generierung und hybride Politikoptimierung
Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization
December 31, 2025
papers.authors: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI
papers.abstract
Bestehende Agenten-Frameworks für große Sprachmodelle (LLM) stehen vor zwei großen Herausforderungen: hohe Konfigurationskosten und statische Fähigkeiten. Die Entwicklung eines hochwertigen Agenten erfordert oft erheblichen manuellen Aufwand bei der Tool-Integration und Prompt-Engineering, während eingesetzte Agenten ohne kostenintive Feinjustierung Schwierigkeiten haben, sich an dynamische Umgebungen anzupassen. Um diese Probleme zu lösen, schlagen wir Youtu-Agent vor, ein modulares Framework für die automatische Generierung und kontinuierliche Evolution von LLM-Agenten. Youtu-Agent verfügt über ein strukturiertes Konfigurationssystem, das Ausführungsumgebungen, Toolkits und Kontextmanagement entkoppelt und damit flexible Wiederverwendung und automatische Synthese ermöglicht. Wir führen zwei Generierungsparadigmen ein: einen Workflow-Modus für Standardaufgaben und einen Meta-Agent-Modus für komplexe, nicht-standardisierte Anforderungen, der automatisch Tool-Code, Prompts und Konfigurationen generieren kann. Darüber hinaus etabliert Youtu-Agent ein hybrides Policy-Optimierungssystem: (1) ein Agent-Practice-Modul, das Agenten ermöglicht, durch In-Context-Optimierung ohne Parameteraktualisierungen Erfahrungen zu sammeln und die Leistung zu verbessern; und (2) ein Agent-RL-Modul, das sich mit verteilten Trainingsframeworks integrieren lässt, um skalierbares und stabiles Reinforcement Learning beliebiger Youtu-Agenten auf end-to-end Weise und in großem Maßstab zu ermöglichen. Experimente zeigen, dass Youtu-Agent mit Open-Weight-Modeln state-of-the-art Leistung auf WebWalkerQA (71,47 %) und GAIA (72,8 %) erzielt. Unsere automatische Generierungspipeline erreicht eine Tool-Synthese-Erfolgsquote von über 81 %, während das Practice-Modul die Leistung auf AIME 2024/2025 um +2,7 % bzw. +5,4 % steigert. Darüber hinaus erzielt unser Agent-RL-Training eine 40 %ige Beschleunigung bei stetiger Leistungsverbesserung auf 7B-LLMs und steigert die Code-/Reasoning- bzw. Suchfähigkeiten auf Mathematik- und allgemeinen/multi-hop-QA-Benchmarks um bis zu 35 % bzw. 21 %.
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.