ChatPaper.aiChatPaper

AWorld : Orchestrer la recette d'entraînement pour l'IA agentique

AWorld: Orchestrating the Training Recipe for Agentic AI

August 28, 2025
papers.authors: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
cs.AI

papers.abstract

Le paradigme d'apprentissage par la pratique est crucial pour développer des systèmes d'IA agentiques performants, mais il est fortement entravé par une génération inefficace d'expériences, un goulot d'étranglement particulièrement prononcé dans des benchmarks complexes comme GAIA. Pour y remédier, nous présentons AWorld, un système open-source conçu pour des interactions à grande échelle entre agents et environnement. En répartissant les tâches sur un cluster, AWorld accélère la collecte d'expériences par un facteur de 14,6 par rapport à une exécution séquentielle standard sur un seul nœud. Cette accélération critique rend l'apprentissage par renforcement extensif pratique et scalable. En exploitant cette capacité, nous avons entraîné un agent basé sur Qwen3-32B qui surpasse significativement son modèle de base, augmentant sa précision globale sur GAIA de 21,59 % à 32,23 %. Sur les niveaux les plus difficiles du benchmark, notre agent atteint un score de 16,33 %, dépassant les performances des modèles propriétaires leaders. Notre système open-source et l'agent qui en résulte fournissent un plan pratique pour un pipeline complet de formation d'IA agentique, allant de l'interaction efficace à l'amélioration démontrable du modèle.
English
The learning from practice paradigm is crucial for developing capable Agentic AI systems, yet it is severely hampered by inefficient experience generation, a bottleneck especially pronounced in complex benchmarks like GAIA. To address this, we introduce AWorld, an open-source system engineered for large-scale agent-environment interaction. By distributing tasks across a cluster, AWorld accelerates experience collection by 14.6x compared to standard single-node, sequential execution. This critical speedup makes extensive reinforcement learning practical and scalable. Leveraging this capability, we trained a Qwen3-32B-based agent that significantly outperforms its base model, increasing its overall GAIA accuracy from 21.59% to 32.23%. On the benchmark's most challenging levels, our agent achieves a score of 16.33%, surpassing the performance of leading proprietary models. Our open-source system and resulting agent provide a practical blueprint for a complete agentic AI training pipeline, from efficient interaction to demonstrable model improvement.
PDF302August 29, 2025