Agent0: Zelf-evoluerende agents vanaf nul data ontketenen via tool-geïntegreerd redeneren
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
November 20, 2025
Auteurs: Peng Xia, Kaide Zeng, Jiaqi Liu, Can Qin, Fang Wu, Yiyang Zhou, Caiming Xiong, Huaxiu Yao
cs.AI
Samenvatting
Grote Taalmodel (LLM) Agenten, vaak getraind met Reinforcement Learning (RL), worden beperkt door een afhankelijkheid van door mensen samengestelde data, wat de schaalbaarheid beperkt en AI vasthoudt aan menselijke kennis. Bestaande zelf-evolutie frameworks bieden een alternatief, maar zijn doorgaans beperkt door de inherente capaciteiten van het model en enkelvoudige interacties, wat de ontwikkeling van complexe curricula met toolgebruik of dynamisch redeneren belemmert. Wij introduceren Agent0, een volledig autonoom framework dat hoogpresterende agenten evolueert zonder externe data via meerstaps co-evolutie en naadloze toolintegratie. Agent0 creëert een symbiotische competitie tussen twee agenten geïnitialiseerd vanuit hetzelfde basis-LLM: een curriculum-agent die steeds uitdagendere frontier-taken voorstelt, en een uitvoerder-agent die leert deze op te lossen. We integreren externe tools om de probleemoplossende capaciteit van de uitvoerder te vergroten; deze verbetering zet op zijn beurt de curriculum-agent onder druk om complexere, tool-bewuste taken te construeren. Door dit iteratieve proces vestigt Agent0 een zichzelf versterkende cyclus die continu hoogwaardige curricula produceert. Empirisch gezien verbetert Agent0 de redeneervaardigheden aanzienlijk, met een verbetering van het Qwen3-8B-Base model van 18% op wiskundig redeneren en 24% op algemene redeneerbenchmarks. Code is beschikbaar op https://github.com/aiming-lab/Agent0.
English
Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at https://github.com/aiming-lab/Agent0.