Agent0: Entfesselung selbstentwickelnder Agenten ohne Ausgangsdaten durch werkzeugintegriertes Denken
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
November 20, 2025
papers.authors: Peng Xia, Kaide Zeng, Jiaqi Liu, Can Qin, Fang Wu, Yiyang Zhou, Caiming Xiong, Huaxiu Yao
cs.AI
papers.abstract
Große Sprachmodell (LLM)-Agenten, die häufig mit Verstärkendem Lernen (RL) trainiert werden, sind durch ihre Abhängigkeit von menschlich kuratierten Daten eingeschränkt, was die Skalierbarkeit begrenzt und KI an menschliches Wissen bindet. Bestehende Selbst-Evolutions-Frameworks bieten eine Alternative, sind jedoch typischerweise durch die inhärenten Fähigkeiten des Modells und Einzelrunden-Interaktionen beschränkt, was die Entwicklung komplexer Lehrpläne mit Werkzeugnutzung oder dynamischem Schlussfolgern behindert. Wir stellen Agent0 vor, ein vollständig autonomes Framework, das hochleistungsfähige Agenten ohne externe Daten durch mehrstufige Ko-Evolution und nahtlose Werkzeugintegration entwickelt. Agent0 etabliert einen symbiotischen Wettbewerb zwischen zwei Agenten, die aus demselben Basis-LLM initialisiert werden: einem Lehrplan-Agenten, der zunehmend herausfordernde Grenzaufgaben vorschlägt, und einem Ausführungs-Agenten, der lernt, diese zu lösen. Wir integrieren externe Werkzeuge, um die Problemlösungsfähigkeit des Ausführungs-Agenten zu erweitern; diese Verbesserung zwingt wiederum den Lehrplan-Agenten, komplexere, werkzeugbewusste Aufgaben zu konstruieren. Durch diesen iterativen Prozess etabliert Agent0 einen sich selbst verstärkenden Zyklus, der kontinuierlich hochwertige Lehrpläne erzeugt. Empirisch steigert Agent0 die Fähigkeiten zum Schlussfolgern erheblich und verbessert das Qwen3-8B-Base-Modell um 18 % bei mathematischem und um 24 % bei allgemeinen Reasoning-Benchmarks. Der Code ist verfügbar unter https://github.com/aiming-lab/Agent0.
English
Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at https://github.com/aiming-lab/Agent0.