AWorld: Orquestando la Receta de Entrenamiento para IA Agéntica
AWorld: Orchestrating the Training Recipe for Agentic AI
August 28, 2025
Autores: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
cs.AI
Resumen
El paradigma de aprendizaje mediante la práctica es crucial para desarrollar sistemas de IA agentes capaces, pero se ve severamente limitado por la generación ineficiente de experiencias, un cuello de botella especialmente pronunciado en benchmarks complejos como GAIA. Para abordar esto, presentamos AWorld, un sistema de código abierto diseñado para la interacción a gran escala entre agentes y entornos. Al distribuir tareas en un clúster, AWorld acelera la recopilación de experiencias en 14.6 veces en comparación con la ejecución secuencial estándar en un solo nodo. Esta aceleración crítica hace que el aprendizaje por refuerzo extensivo sea práctico y escalable. Aprovechando esta capacidad, entrenamos un agente basado en Qwen3-32B que supera significativamente a su modelo base, aumentando su precisión general en GAIA del 21.59% al 32.23%. En los niveles más desafiantes del benchmark, nuestro agente alcanza una puntuación del 16.33%, superando el rendimiento de los principales modelos propietarios. Nuestro sistema de código abierto y el agente resultante proporcionan un plan práctico para un pipeline completo de entrenamiento de IA agentes, desde la interacción eficiente hasta la mejora demostrable del modelo.
English
The learning from practice paradigm is crucial for developing capable Agentic
AI systems, yet it is severely hampered by inefficient experience generation, a
bottleneck especially pronounced in complex benchmarks like GAIA. To address
this, we introduce AWorld, an open-source system engineered for large-scale
agent-environment interaction. By distributing tasks across a cluster, AWorld
accelerates experience collection by 14.6x compared to standard single-node,
sequential execution. This critical speedup makes extensive reinforcement
learning practical and scalable. Leveraging this capability, we trained a
Qwen3-32B-based agent that significantly outperforms its base model, increasing
its overall GAIA accuracy from 21.59% to 32.23%. On the benchmark's most
challenging levels, our agent achieves a score of 16.33%, surpassing the
performance of leading proprietary models. Our open-source system and resulting
agent provide a practical blueprint for a complete agentic AI training
pipeline, from efficient interaction to demonstrable model improvement.