Agente0: Liberando agentes auto-evolutivos desde cero datos mediante razonamiento integrado con herramientas
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
November 20, 2025
Autores: Peng Xia, Kaide Zeng, Jiaqi Liu, Can Qin, Fang Wu, Yiyang Zhou, Caiming Xiong, Huaxiu Yao
cs.AI
Resumen
Los Agentes de Modelos de Lenguaje Grandes (LLM), a menudo entrenados con Aprendizaje por Refuerzo (RL), están limitados por una dependencia de datos curados por humanos, lo que restringe la escalabilidad y sujeta la IA al conocimiento humano. Los marcos de auto-evolución existentes ofrecen una alternativa, pero suelen estar restringidos por las capacidades inherentes del modelo y las interacciones de una sola ronda, obstaculizando el desarrollo de currículos complejos que impliquen el uso de herramientas o razonamiento dinámico. Presentamos Agent0, un marco completamente autónomo que evoluciona agentes de alto rendimiento sin datos externos mediante co-evolución multi-etapa e integración perfecta de herramientas. Agent0 establece una competencia simbiótica entre dos agentes inicializados desde el mismo LLM base: un agente curricular que propone tareas de frontera cada vez más desafiantes, y un agente ejecutor que aprende a resolverlas. Integramos herramientas externas para mejorar la capacidad de resolución de problemas del ejecutor; esta mejora, a su vez, presiona al agente curricular para que construya tareas más complejas y conscientes de las herramientas. A través de este proceso iterativo, Agent0 establece un ciclo de autorrefuerzo que produce continuamente currículos de alta calidad. Empíricamente, Agent0 aumenta sustancialmente las capacidades de razonamiento, mejorando el modelo Qwen3-8B-Base en un 18% en razonamiento matemático y un 24% en benchmarks de razonamiento general. El código está disponible en https://github.com/aiming-lab/Agent0.
English
Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at https://github.com/aiming-lab/Agent0.