ChatPaper.aiChatPaper

AWorld: Het Orkestreren van het Trainingsrecept voor Agentisch AI

AWorld: Orchestrating the Training Recipe for Agentic AI

August 28, 2025
Auteurs: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
cs.AI

Samenvatting

Het leren door praktijkparadigma is cruciaal voor het ontwikkelen van capabele agentieve AI-systemen, maar wordt ernstig belemmerd door inefficiënte ervaringsgeneratie, een knelpunt dat vooral duidelijk wordt in complexe benchmarks zoals GAIA. Om dit aan te pakken, introduceren we AWorld, een open-source systeem dat is ontworpen voor grootschalige interactie tussen agent en omgeving. Door taken te verdelen over een cluster, versnelt AWorld de ervaringsverzameling met een factor 14,6 in vergelijking met standaard uitvoering op één knooppunt. Deze cruciale versnelling maakt uitgebreide reinforcement learning praktisch en schaalbaar. Door gebruik te maken van deze mogelijkheid, hebben we een agent getraind op basis van Qwen3-32B die zijn basismodel aanzienlijk overtreft, waarbij de algehele nauwkeurigheid op GAIA stijgt van 21,59% naar 32,23%. Op de meest uitdagende niveaus van de benchmark behaalt onze agent een score van 16,33%, wat de prestaties van toonaangevende propriëtaire modellen overtreft. Ons open-source systeem en de resulterende agent bieden een praktisch blauwdruk voor een complete trainingspijplijn voor agentieve AI, van efficiënte interactie tot aantoonbare modelverbetering.
English
The learning from practice paradigm is crucial for developing capable Agentic AI systems, yet it is severely hampered by inefficient experience generation, a bottleneck especially pronounced in complex benchmarks like GAIA. To address this, we introduce AWorld, an open-source system engineered for large-scale agent-environment interaction. By distributing tasks across a cluster, AWorld accelerates experience collection by 14.6x compared to standard single-node, sequential execution. This critical speedup makes extensive reinforcement learning practical and scalable. Leveraging this capability, we trained a Qwen3-32B-based agent that significantly outperforms its base model, increasing its overall GAIA accuracy from 21.59% to 32.23%. On the benchmark's most challenging levels, our agent achieves a score of 16.33%, surpassing the performance of leading proprietary models. Our open-source system and resulting agent provide a practical blueprint for a complete agentic AI training pipeline, from efficient interaction to demonstrable model improvement.
PDF382August 29, 2025