ChatPaper.aiChatPaper

Youtu-Agent: Повышение продуктивности агентов за счет автоматизированной генерации и гибридной оптимизации политик

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

December 31, 2025
Авторы: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
cs.AI

Аннотация

Существующие фреймворки агентов на основе больших языковых моделей (LLM) сталкиваются с двумя серьёзными проблемами: высокой стоимостью конфигурации и статичностью возможностей. Создание качественного агента часто требует значительных ручных усилий по интеграции инструментов и проектированию промптов, тогда как развёрнутые агенты не способны адаптироваться к динамической среде без дорогостоящего дообучения. Для решения этих проблем мы предлагаем Youtu-Agent — модульный фреймворк, предназначенный для автоматизированной генерации и непрерывной эволюции LLM-агентов. Youtu-Agent обладает структурированной системой конфигурации, которая разделяет среды исполнения, наборы инструментов и управление контекстом, обеспечивая гибкое повторное использование и автоматизированный синтез. Мы представляем две парадигмы генерации: режим Workflow для стандартных задач и режим Мета-Агента для сложных, нестандартных требований, способный автоматически генерировать код инструментов, промпты и конфигурации. Кроме того, Youtu-Agent реализует гибридную систему оптимизации политик: (1) модуль Agent Practice, позволяющий агентам накапливать опыт и улучшать производительность посредством оптимизации в контексте без обновления параметров; и (2) модуль Agent RL, который интегрируется с распределёнными фреймворками обучения для обеспечения масштабируемого и стабильного обучения с подкреплением любых агентов Youtu-Agent сквозным, крупномасштабным образом. Эксперименты показывают, что Youtu-Agent демонстрирует наилучшую производительность на WebWalkerQA (71.47%) и GAIA (72.8%) с использованием открытых моделей. Наш автоматизированный конвейер генерации достигает успеха в синтезе инструментов более чем в 81% случаев, в то время как модуль Practice улучшает результаты на AIME 2024/2025 на +2.7% и +5.4% соответственно. Более того, обучение с помощью нашего Agent RL обеспечивает 40%-ное ускорение с устойчивым улучшением производительности на 7B LLM, повышая способности к программированию/рассуждению и поиску до 35% и 21% соответственно на математических и общих/многошаговых QA-бенчмарках.
English
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose Youtu-Agent, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a Workflow mode for standard tasks and a Meta-Agent mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an Agent Practice module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an Agent RL module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.
PDF811January 6, 2026