ChatPaper.aiChatPaper

AWorld: Die Orchestrierung des Trainingsrezepts für agentenbasiertes KI-System

AWorld: Orchestrating the Training Recipe for Agentic AI

August 28, 2025
papers.authors: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
cs.AI

papers.abstract

Das Paradigma des Lernens durch Praxis ist entscheidend für die Entwicklung leistungsfähiger agentenbasierter KI-Systeme, wird jedoch durch ineffiziente Erfahrungsgenerierung stark behindert, ein Engpass, der besonders in komplexen Benchmarks wie GAIA deutlich wird. Um dies zu adressieren, stellen wir AWorld vor, ein Open-Source-System, das für groß angelegte Interaktionen zwischen Agenten und Umgebungen entwickelt wurde. Durch die Verteilung von Aufgaben über einen Cluster beschleunigt AWorld die Erfahrungssammlung um das 14,6-fache im Vergleich zur Standardausführung auf einem einzelnen Knoten. Diese entscheidende Beschleunigung macht umfangreiches Reinforcement Learning praktisch und skalierbar. Mit dieser Fähigkeit trainierten wir einen auf Qwen3-32B basierenden Agenten, der sein Basismodell deutlich übertrifft und seine Gesamtgenauigkeit bei GAIA von 21,59 % auf 32,23 % steigert. Auf den anspruchsvollsten Stufen des Benchmarks erreicht unser Agent eine Punktzahl von 16,33 % und übertrifft damit die Leistung führender proprietärer Modelle. Unser Open-Source-System und der daraus resultierende Agent bieten einen praktischen Leitfaden für einen vollständigen Trainingspipeline für agentenbasierte KI, von effizienter Interaktion bis hin zu nachweisbarer Modellverbesserung.
English
The learning from practice paradigm is crucial for developing capable Agentic AI systems, yet it is severely hampered by inefficient experience generation, a bottleneck especially pronounced in complex benchmarks like GAIA. To address this, we introduce AWorld, an open-source system engineered for large-scale agent-environment interaction. By distributing tasks across a cluster, AWorld accelerates experience collection by 14.6x compared to standard single-node, sequential execution. This critical speedup makes extensive reinforcement learning practical and scalable. Leveraging this capability, we trained a Qwen3-32B-based agent that significantly outperforms its base model, increasing its overall GAIA accuracy from 21.59% to 32.23%. On the benchmark's most challenging levels, our agent achieves a score of 16.33%, surpassing the performance of leading proprietary models. Our open-source system and resulting agent provide a practical blueprint for a complete agentic AI training pipeline, from efficient interaction to demonstrable model improvement.
PDF292August 29, 2025