ChatPaper.aiChatPaper

Youtu-Agent: Escalando la Productividad de Agentes mediante Generación Automatizada y Optimización de Políticas Híbridas

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

December 31, 2025
Autores: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI

Resumen

Los marcos de agentes de Modelos de Lenguaje a Gran Escala (LLM) existentes enfrentan dos desafíos significativos: altos costos de configuración y capacidades estáticas. Construir un agente de alta calidad a menudo requiere un esfuerzo manual extenso en integración de herramientas e ingeniería de prompts, mientras que los agentes desplegados tienen dificultades para adaptarse a entornos dinámicos sin un ajuste fino costoso. Para abordar estos problemas, proponemos Youtu-Agent, un marco modular diseñado para la generación automatizada y la evolución continua de agentes LLM. Youtu-Agent cuenta con un sistema de configuración estructurado que desacopla entornos de ejecución, kits de herramientas y gestión de contexto, permitiendo reutilización flexible y síntesis automatizada. Introducimos dos paradigmas de generación: un modo Workflow para tareas estándar y un modo Meta-Agente para requisitos complejos y no estándar, capaz de generar automáticamente código de herramientas, prompts y configuraciones. Además, Youtu-Agent establece un sistema híbrido de optimización de políticas: (1) un módulo de Práctica de Agente que permite a los agentes acumular experiencia y mejorar el rendimiento mediante optimización en contexto sin actualizaciones de parámetros; y (2) un módulo Agente-RL que se integra con marcos de entrenamiento distribuido para permitir el aprendizaje por refuerzo escalable y estable de cualquier Youtu-Agent de manera integral y a gran escala. Los experimentos demuestran que Youtu-Agent alcanza un rendimiento de vanguardia en WebWalkerQA (71.47%) y GAIA (72.8%) utilizando modelos de pesos abiertos. Nuestra canalización de generación automatizada logra una tasa de éxito en síntesis de herramientas superior al 81%, mientras que el módulo de Práctica mejora el rendimiento en AIME 2024/2025 en +2.7% y +5.4% respectivamente. Además, nuestro entrenamiento Agente-RL logra una aceleración del 40% con mejora estable del rendimiento en LLMs de 7B, mejorando las capacidades de codificación/razonamiento y búsqueda hasta un 35% y 21% respectivamente en benchmarks de Matemáticas y QA general/de múltiples saltos.
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.
PDF811January 6, 2026