ChatPaper.aiChatPaper

Youtu-Agent: Het Opschalen van Agentproductiviteit met Geautomatiseerde Generatie en Hybride Beleidsoptimalisatie

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

December 31, 2025
Auteurs: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI

Samenvatting

Bestaande raamwerken voor Large Language Model (LLM)-agenten kampen met twee grote uitdagingen: hoge configuratiekosten en statische capaciteiten. Het bouwen van een hoogwaardige agent vereist vaak aanzienlijke handmatige inspanning voor toolintegratie en prompt engineering, terwijl geïmplementeerde agenten moeite hebben zich aan te passen aan dynamische omgevingen zonder kostbare fine-tuning. Om deze problemen aan te pakken, stellen we Youtu-Agent voor, een modulair raamwerk ontworpen voor de automatische generatie en continue evolutie van LLM-agenten. Youtu-Agent beschikt over een gestructureerd configuratiesysteem dat uitvoeringsomgevingen, toolkits en contextbeheer ontkoppelt, waardoor flexibel hergebruik en geautomatiseerde synthese mogelijk worden. We introduceren twee generatieparadigma's: een Workflow-modus voor standaardtaken en een Meta-Agent-modus voor complexe, niet-standaard vereisten, die in staat is om automatisch toolcode, prompts en configuraties te genereren. Verder stelt Youtu-Agent een hybride beleidsoptimalisatiesysteem in: (1) een Agent Practice-module die agenten in staat stelt ervaring op te doen en prestaties te verbeteren door in-context optimalisatie zonder parameterupdates; en (2) een Agent RL-module die integreert met gedistribueerde trainingsraamwerken om schaalbare en stabiele reinforcement learning van willekeurige Youtu-Agents op een end-to-end, grootschalige manier mogelijk te maken. Experimenten tonen aan dat Youtu-Agent state-of-the-art prestaties bereikt op WebWalkerQA (71,47%) en GAIA (72,8%) met behulp van open-weight modellen. Onze geautomatiseerde generatiepijplijn behaalt een toolsynthesesuccespercentage van meer dan 81%, terwijl de Practice-module de prestaties op AIME 2024/2025 respectievelijk met +2,7% en +5,4% verbetert. Bovendien behaalt onze Agent RL-training een versnelling van 40% met gestage prestatieverbetering op 7B-LLM's, waarbij codeer-/redeneer- en zoekcapaciteiten respectievelijk tot 35% en 21% worden verbeterd op Maths en algemene/multi-hop QA-benchmarks.
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.
PDF811January 6, 2026