Youtu-Agent: Scalare la Produttività degli Agenti tramite Generazione Automatica e Ottimizzazione Ibrida delle Politiche

Abstract

Gli attuali framework per agenti basati su Large Language Model (LLM) affrontano due sfide significative: elevati costi di configurazione e capacità statiche. La creazione di un agente di alta qualità richiede spesso un notevole sforzo manuale nell'integrazione di strumenti e nell'ingegneria dei prompt, mentre gli agenti già distribuiti faticano ad adattarsi ad ambienti dinamici senza costosi interventi di fine-tuning. Per risolvere questi problemi, proponiamo Youtu-Agent, un framework modulare progettato per la generazione automatizzata e l'evoluzione continua di agenti LLM. Youtu-Agent presenta un sistema di configurazione strutturato che disaccochia ambienti di esecuzione, toolkit e gestione del contesto, consentendo il riutilizzo flessibile e la sintesi automatizzata. Introduciamo due paradigmi di generazione: una modalità Workflow per compiti standard e una modalità Meta-Agente per requisiti complessi e non standard, in grado di generare automaticamente codice per strumenti, prompt e configurazioni. Inoltre, Youtu-Agent stabilisce un sistema di ottimizzazione ibrido delle policy: (1) un modulo Agent Practice che consente agli agenti di accumulare esperienza e migliorare le prestazioni attraverso l'ottimizzazione contestuale senza aggiornamenti dei parametri; e (2) un modulo Agent RL che si integra con framework di addestramento distribuito per abilitare l'apprendimento per rinforzo scalabile e stabile di qualsiasi agente Youtu in modalità end-to-end e su larga scala. Gli esperimenti dimostrano che Youtu-Agent raggiunge prestazioni allo stato dell'arte su WebWalkerQA (71,47%) e GAIA (72,8%) utilizzando modelli open-weight. La nostra pipeline di generazione automatizzata raggiunge un tasso di successo nella sintesi degli strumenti superiore all'81%, mentre il modulo Practice migliora le prestazioni su AIME 2024/2025 rispettivamente del +2,7% e +5,4%. Inoltre, l'addestramento Agent RL raggiunge un'accelerazione del 40% con un miglioramento costante delle prestazioni su LLM da 7B, potenziando rispettivamente le capacità di codifica/ragionamento e ricerca fino al 35% e 21% su benchmark matematici e di QA generali/multi-hop.

English

Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.

Youtu-Agent: Scalare la Produttività degli Agenti tramite Generazione Automatica e Ottimizzazione Ibrida delle Politiche

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

Abstract

Support