Agent0: ツール統合理論によるゼロデータからの自己進化エージェントの解放
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
November 20, 2025
著者: Peng Xia, Kaide Zeng, Jiaqi Liu, Can Qin, Fang Wu, Yiyang Zhou, Caiming Xiong, Huaxiu Yao
cs.AI
要旨
大規模言語モデル(LLM)エージェントは、強化学習(RL)を用いて訓練されることが多いが、人間が整備したデータへの依存性に制約され、拡張性が限られ、AIが人間の知識に縛られるという課題を抱えている。既存の自己進化フレームワークは代替手段を提供するが、一般的にモデルの内在能力や単一ラウンドの相互作用に制限され、ツール利用や動的推論を含む複雑なカリキュラムの発展を妨げている。本論文では、外部データを必要とせず、多段階の共進化とシームレスなツール統合を通じて高性能エージェントを進化させる完全自律型フレームワーク「Agent0」を提案する。Agent0は、同一の基盤LLMから初期化された2つのエージェント間の共生的競争を確立する:ますます困難な最先端タスクを提案するカリキュラムエージェントと、それらを解決する方法を学習する実行エージェントである。外部ツールを統合して実行エージェントの問題解決能力を強化し、この改善がカリキュラムエージェントにツールを意識したより複雑なタスク構築を促す。この反復的プロセスを通じて、Agent0は高品質なカリキュラムを継続的に生成する自己強化サイクルを確立する。実験では、Agent0が推論能力を大幅に向上させ、Qwen3-8B-Baseモデルにおいて数学的推論で18%、一般推論ベンチマークで24%の性能向上を達成した。コードはhttps://github.com/aiming-lab/Agent0で公開されている。
English
Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at https://github.com/aiming-lab/Agent0.