Agent0: Libertação de Agentes de Auto-Evolução a Partir de Dados Zero via Raciocínio com Integração de Ferramentas
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
November 20, 2025
Autores: Peng Xia, Kaide Zeng, Jiaqi Liu, Can Qin, Fang Wu, Yiyang Zhou, Caiming Xiong, Huaxiu Yao
cs.AI
Resumo
Os Agentes de Modelos de Linguagem de Grande Porte (LLM), frequentemente treinados com Aprendizagem por Reforço (RL), são limitados por uma dependência de dados curados por humanos, restringindo a escalabilidade e vinculando a IA ao conhecimento humano. As estruturas de auto-evolução existentes oferecem uma alternativa, mas são tipicamente limitadas pelas capacidades inerentes do modelo e por interações de rodada única, dificultando o desenvolvimento de currículos complexos que envolvam o uso de ferramentas ou raciocínio dinâmico. Apresentamos o Agent0, uma estrutura totalmente autónoma que evolui agentes de alto desempenho sem dados externos, através de co-evolução multi-etapas e integração perfeita de ferramentas. O Agent0 estabelece uma competição simbiótica entre dois agentes inicializados a partir do mesmo LLM base: um agente de currículo que propõe tarefas de fronteira progressivamente mais desafiadoras, e um agente executor que aprende a resolvê-las. Integramos ferramentas externas para aumentar a capacidade de resolução de problemas do executor; esta melhoria, por sua vez, pressiona o agente de currículo a construir tarefas mais complexas e conscientes das ferramentas. Através deste processo iterativo, o Agent0 estabelece um ciclo de auto-reforço que produz continuamente currículos de alta qualidade. Empiricamente, o Agent0 aumenta substancialmente as capacidades de raciocínio, melhorando o modelo Qwen3-8B-Base em 18% no raciocínio matemático e 24% em benchmarks de raciocínio geral. O código está disponível em https://github.com/aiming-lab/Agent0.
English
Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at https://github.com/aiming-lab/Agent0.