ChatPaper.aiChatPaper

Youtu-Agent: Scalare la Produttività degli Agenti tramite Generazione Automatica e Ottimizzazione Ibrida delle Politiche

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

December 31, 2025
Autori: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI

Abstract

Gli attuali framework per agenti basati su Large Language Model (LLM) affrontano due sfide significative: elevati costi di configurazione e capacità statiche. La creazione di un agente di alta qualità richiede spesso un notevole sforzo manuale nell'integrazione di strumenti e nell'ingegneria dei prompt, mentre gli agenti già distribuiti faticano ad adattarsi ad ambienti dinamici senza costosi interventi di fine-tuning. Per risolvere questi problemi, proponiamo Youtu-Agent, un framework modulare progettato per la generazione automatizzata e l'evoluzione continua di agenti LLM. Youtu-Agent presenta un sistema di configurazione strutturato che disaccochia ambienti di esecuzione, toolkit e gestione del contesto, consentendo il riutilizzo flessibile e la sintesi automatizzata. Introduciamo due paradigmi di generazione: una modalità Workflow per compiti standard e una modalità Meta-Agente per requisiti complessi e non standard, in grado di generare automaticamente codice per strumenti, prompt e configurazioni. Inoltre, Youtu-Agent stabilisce un sistema di ottimizzazione ibrido delle policy: (1) un modulo Agent Practice che consente agli agenti di accumulare esperienza e migliorare le prestazioni attraverso l'ottimizzazione contestuale senza aggiornamenti dei parametri; e (2) un modulo Agent RL che si integra con framework di addestramento distribuito per abilitare l'apprendimento per rinforzo scalabile e stabile di qualsiasi agente Youtu in modalità end-to-end e su larga scala. Gli esperimenti dimostrano che Youtu-Agent raggiunge prestazioni allo stato dell'arte su WebWalkerQA (71,47%) e GAIA (72,8%) utilizzando modelli open-weight. La nostra pipeline di generazione automatizzata raggiunge un tasso di successo nella sintesi degli strumenti superiore all'81%, mentre il modulo Practice migliora le prestazioni su AIME 2024/2025 rispettivamente del +2,7% e +5,4%. Inoltre, l'addestramento Agent RL raggiunge un'accelerazione del 40% con un miglioramento costante delle prestazioni su LLM da 7B, potenziando rispettivamente le capacità di codifica/ragionamento e ricerca fino al 35% e 21% su benchmark matematici e di QA generali/multi-hop.
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.
PDF1195February 8, 2026