Youtu-Agent: Escalando a Produtividade de Agentes com Geração Automatizada e Otimização de Política Híbrida
Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization
December 31, 2025
Autores: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI
Resumo
Os frameworks de agentes de Modelos de Linguagem de Grande Porte (LLM) existentes enfrentam dois desafios significativos: altos custos de configuração e capacidades estáticas. A construção de um agente de alta qualidade frequentemente requer esforço manual extensivo na integração de ferramentas e engenharia de prompt, enquanto os agentes implantados lutam para se adaptar a ambientes dinâmicos sem ajustes finos dispendiosos. Para resolver essas questões, propomos o Youtu-Agent, um framework modular projetado para a geração automatizada e a evolução contínua de agentes LLM. O Youtu-Agent apresenta um sistema de configuração estruturado que desacopla ambientes de execução, conjuntos de ferramentas e gerenciamento de contexto, permitindo reutilização flexível e síntese automatizada. Introduzimos dois paradigmas de geração: um modo Workflow para tarefas padrão e um modo Meta-Agente para requisitos complexos e não padronizados, capaz de gerar automaticamente código de ferramenta, prompts e configurações. Além disso, o Youtu-Agent estabelece um sistema híbrido de otimização de políticas: (1) um módulo de Prática de Agente que permite aos agentes acumular experiência e melhorar o desempenho por meio de otimização em contexto sem atualizações de parâmetros; e (2) um módulo Agente RL que se integra a frameworks de treinamento distribuído para permitir o aprendizado por reforço escalável e estável de qualquer Youtu-Agent de maneira ponta a ponta e em larga escala. Experimentos demonstram que o Youtu-Agent alcança desempenho de última geração no WebWalkerQA (71,47%) e no GAIA (72,8%) usando modelos de pesos abertos. Nossa pipeline de geração automatizada atinge uma taxa de sucesso de síntese de ferramentas superior a 81%, enquanto o módulo de Prática melhora o desempenho no AIME 2024/2025 em +2,7% e +5,4%, respectivamente. Além disso, nosso treinamento de Agente RL alcança aceleração de 40% com melhoria estável de desempenho em LLMs de 7B, aprimorando as capacidades de codificação/raciocínio e busca em até 35% e 21%, respectivamente, em benchmarks de Matemática e QA geral/de múltiplos saltos.
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.