ChatPaper.aiChatPaper

AWorld: Orquestrando a Receita de Treinamento para IA Agente

AWorld: Orchestrating the Training Recipe for Agentic AI

August 28, 2025
Autores: Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang, Siqi Hou, Gaochi Huang, Wenlong Yan, Lifeng Hong, Aohui Xue, Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin
cs.AI

Resumo

O paradigma de aprendizado pela prática é crucial para o desenvolvimento de sistemas de IA Agêntica capazes, mas é severamente limitado pela geração ineficiente de experiências, um gargalo especialmente pronunciado em benchmarks complexos como o GAIA. Para resolver isso, introduzimos o AWorld, um sistema de código aberto projetado para interação em larga escala entre agentes e ambientes. Ao distribuir tarefas por um cluster, o AWorld acelera a coleta de experiências em 14,6 vezes em comparação com a execução sequencial padrão em um único nó. Essa aceleração crítica torna o aprendizado por reforço extensivo prático e escalável. Aproveitando essa capacidade, treinamos um agente baseado no Qwen3-32B que supera significativamente seu modelo base, aumentando sua precisão geral no GAIA de 21,59% para 32,23%. Nos níveis mais desafiadores do benchmark, nosso agente alcança uma pontuação de 16,33%, superando o desempenho de modelos proprietários líderes. Nosso sistema de código aberto e o agente resultante fornecem um modelo prático para um pipeline completo de treinamento de IA Agêntica, desde a interação eficiente até a melhoria demonstrável do modelo.
English
The learning from practice paradigm is crucial for developing capable Agentic AI systems, yet it is severely hampered by inefficient experience generation, a bottleneck especially pronounced in complex benchmarks like GAIA. To address this, we introduce AWorld, an open-source system engineered for large-scale agent-environment interaction. By distributing tasks across a cluster, AWorld accelerates experience collection by 14.6x compared to standard single-node, sequential execution. This critical speedup makes extensive reinforcement learning practical and scalable. Leveraging this capability, we trained a Qwen3-32B-based agent that significantly outperforms its base model, increasing its overall GAIA accuracy from 21.59% to 32.23%. On the benchmark's most challenging levels, our agent achieves a score of 16.33%, surpassing the performance of leading proprietary models. Our open-source system and resulting agent provide a practical blueprint for a complete agentic AI training pipeline, from efficient interaction to demonstrable model improvement.
PDF382August 29, 2025