ChatPaper.aiChatPaper

Youtu-Agent : Augmenter la Productivité des Agents grâce à la Génération Automatisée et l'Optimisation de Politiques Hybrides

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

December 31, 2025
papers.authors: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI

papers.abstract

Les frameworks d'agents de grands modèles de langage (LLM) existants rencontrent deux défis majeurs : des coûts de configuration élevés et des capacités statiques. La création d'un agent de haute qualité nécessite souvent un effort manuel important en intégration d'outils et en ingénierie de prompts, tandis que les agents déployés peinent à s'adapter aux environnements dynamiques sans fine-tuning coûteux. Pour résoudre ces problèmes, nous proposons Youtu-Agent, un framework modulaire conçu pour la génération automatisée et l'évolution continue d'agents LLM. Youtu-Agent dispose d'un système de configuration structuré qui découple les environnements d'exécution, les boîtes à outils et la gestion du contexte, permettant une réutilisation flexible et une synthèse automatisée. Nous introduisons deux paradigmes de génération : un mode Workflow pour les tâches standard et un mode Méta-Agent pour les besoins complexes non standard, capable de générer automatiquement le code d'outils, les prompts et les configurations. De plus, Youtu-Agent établit un système d'optimisation de politique hybride : (1) un module de Pratique d'Agent qui permet aux agents d'accumuler de l'expérience et d'améliorer leurs performances via une optimisation en contexte sans mise à jour des paramètres ; et (2) un module Agent RL qui s'intègre aux frameworks d'entraînement distribué pour permettre un apprentissage par renforcement scalable et stable de tout agent Youtu-Agent de manière end-to-end et à grande échelle. Les expériences démontrent que Youtu-Agent atteint des performances state-of-the-art sur WebWalkerQA (71,47 %) et GAIA (72,8 %) en utilisant des modèles open-weight. Notre pipeline de génération automatisée atteint un taux de réussite de synthèse d'outils supérieur à 81 %, tandis que le module de Pratique améliore les performances sur AIME 2024/2025 de respectivement +2,7 % et +5,4 %. De plus, notre entraînement Agent RL atteint une accélération de 40 % avec une amélioration stable des performances sur des LLM 7B, renforçant respectivement les capacités de codage/raisonnement et de recherche jusqu'à 35 % et 21 % sur les benchmarks de mathématiques et de questions-réponses générales/multi-sauts.
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.
PDF811January 6, 2026