AWorld: Die Orchestrierung des Trainingsrezepts für agentenbasiertes KI-System
AWorld: Orchestrating the Training Recipe for Agentic AI
August 28, 2025
papers.authors: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
cs.AI
papers.abstract
Das Paradigma des Lernens durch Praxis ist entscheidend für die Entwicklung leistungsfähiger agentenbasierter KI-Systeme, wird jedoch durch ineffiziente Erfahrungsgenerierung stark behindert, ein Engpass, der besonders in komplexen Benchmarks wie GAIA deutlich wird. Um dies zu adressieren, stellen wir AWorld vor, ein Open-Source-System, das für groß angelegte Interaktionen zwischen Agenten und Umgebungen entwickelt wurde. Durch die Verteilung von Aufgaben über einen Cluster beschleunigt AWorld die Erfahrungssammlung um das 14,6-fache im Vergleich zur Standardausführung auf einem einzelnen Knoten. Diese entscheidende Beschleunigung macht umfangreiches Reinforcement Learning praktisch und skalierbar. Mit dieser Fähigkeit trainierten wir einen auf Qwen3-32B basierenden Agenten, der sein Basismodell deutlich übertrifft und seine Gesamtgenauigkeit bei GAIA von 21,59 % auf 32,23 % steigert. Auf den anspruchsvollsten Stufen des Benchmarks erreicht unser Agent eine Punktzahl von 16,33 % und übertrifft damit die Leistung führender proprietärer Modelle. Unser Open-Source-System und der daraus resultierende Agent bieten einen praktischen Leitfaden für einen vollständigen Trainingspipeline für agentenbasierte KI, von effizienter Interaktion bis hin zu nachweisbarer Modellverbesserung.
English
The learning from practice paradigm is crucial for developing capable Agentic
AI systems, yet it is severely hampered by inefficient experience generation, a
bottleneck especially pronounced in complex benchmarks like GAIA. To address
this, we introduce AWorld, an open-source system engineered for large-scale
agent-environment interaction. By distributing tasks across a cluster, AWorld
accelerates experience collection by 14.6x compared to standard single-node,
sequential execution. This critical speedup makes extensive reinforcement
learning practical and scalable. Leveraging this capability, we trained a
Qwen3-32B-based agent that significantly outperforms its base model, increasing
its overall GAIA accuracy from 21.59% to 32.23%. On the benchmark's most
challenging levels, our agent achieves a score of 16.33%, surpassing the
performance of leading proprietary models. Our open-source system and resulting
agent provide a practical blueprint for a complete agentic AI training
pipeline, from efficient interaction to demonstrable model improvement.