ChatPaper.aiChatPaper

Agent0 : Libérer des agents auto-évolutifs à partir de zéro donnée grâce à un raisonnement intégrant des outils

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

November 20, 2025
papers.authors: Peng Xia, Kaide Zeng, Jiaqi Liu, Can Qin, Fang Wu, Yiyang Zhou, Caiming Xiong, Huaxiu Yao
cs.AI

papers.abstract

Les agents de modèles de langage de grande taille (LLM), souvent entraînés par apprentissage par renforcement (RL), sont limités par une dépendance aux données sélectionnées par des humains, ce qui restreint leur extensibilité et assujettit l'IA au savoir humain. Les cadres d'auto-évolution existants offrent une alternative, mais sont généralement contraints par les capacités intrinsèques du modèle et des interactions en une seule étape, entravant le développement de cursus complexes impliquant l'utilisation d'outils ou un raisonnement dynamique. Nous présentons Agent0, un cadre entièrement autonome qui fait évoluer des agents performants sans données externes grâce à une coévolution multi-étapes et une intégration transparente d'outils. Agent0 établit une compétition symbiotique entre deux agents initialisés à partir du même LLM de base : un agent de cursus qui propose des tâches frontalières de plus en plus difficiles, et un agent exécuteur qui apprend à les résoudre. Nous intégrons des outils externes pour renforcer la capacité de résolution de problèmes de l'exécuteur ; cette amélioration pousse à son tour l'agent de cursus à construire des tâches plus complexes, adaptées aux outils. Grâce à ce processus itératif, Agent0 établit un cycle auto-renforçant qui produit continuellement des cursus de haute qualité. Empiriquement, Agent0 améliore substantiellement les capacités de raisonnement, augmentant les performances du modèle Qwen3-8B-Base de 18 % en raisonnement mathématique et de 24 % sur des benchmarks de raisonnement général. Le code est disponible à l'adresse https://github.com/aiming-lab/Agent0.
English
Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at https://github.com/aiming-lab/Agent0.
PDF974December 1, 2025