ChatPaper.aiChatPaper

AWorld: Orquestando la Receta de Entrenamiento para IA Agéntica

AWorld: Orchestrating the Training Recipe for Agentic AI

August 28, 2025
Autores: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
cs.AI

Resumen

El paradigma de aprendizaje mediante la práctica es crucial para desarrollar sistemas de IA agentes capaces, pero se ve severamente limitado por la generación ineficiente de experiencias, un cuello de botella especialmente pronunciado en benchmarks complejos como GAIA. Para abordar esto, presentamos AWorld, un sistema de código abierto diseñado para la interacción a gran escala entre agentes y entornos. Al distribuir tareas en un clúster, AWorld acelera la recopilación de experiencias en 14.6 veces en comparación con la ejecución secuencial estándar en un solo nodo. Esta aceleración crítica hace que el aprendizaje por refuerzo extensivo sea práctico y escalable. Aprovechando esta capacidad, entrenamos un agente basado en Qwen3-32B que supera significativamente a su modelo base, aumentando su precisión general en GAIA del 21.59% al 32.23%. En los niveles más desafiantes del benchmark, nuestro agente alcanza una puntuación del 16.33%, superando el rendimiento de los principales modelos propietarios. Nuestro sistema de código abierto y el agente resultante proporcionan un plan práctico para un pipeline completo de entrenamiento de IA agentes, desde la interacción eficiente hasta la mejora demostrable del modelo.
English
The learning from practice paradigm is crucial for developing capable Agentic AI systems, yet it is severely hampered by inefficient experience generation, a bottleneck especially pronounced in complex benchmarks like GAIA. To address this, we introduce AWorld, an open-source system engineered for large-scale agent-environment interaction. By distributing tasks across a cluster, AWorld accelerates experience collection by 14.6x compared to standard single-node, sequential execution. This critical speedup makes extensive reinforcement learning practical and scalable. Leveraging this capability, we trained a Qwen3-32B-based agent that significantly outperforms its base model, increasing its overall GAIA accuracy from 21.59% to 32.23%. On the benchmark's most challenging levels, our agent achieves a score of 16.33%, surpassing the performance of leading proprietary models. Our open-source system and resulting agent provide a practical blueprint for a complete agentic AI training pipeline, from efficient interaction to demonstrable model improvement.
PDF302August 29, 2025