ChatPaper.aiChatPaper

EnvFactory: Escalonamento de Agentes de Uso de Ferramentas via Síntese de Ambientes Executáveis e Aprendizado por Reforço Robusto

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

May 18, 2026
Autores: Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo
cs.AI

Resumo

Equipar LLMs com capacidades de uso de ferramentas via Aprendizagem por Reforço Agentiva (Agentic RL) é limitado por dois desafios: a falta de ambientes de execução escaláveis e robustos, e a escassez de dados de treinamento realistas que capturem o raciocínio implícito humano. Abordagens existentes dependem de APIs do mundo real de alto custo, simuladores de LLM propensos a alucinações, ou ambientes sintéticos que frequentemente são de turno único ou dependem de documentos pré-coletados. Além disso, trajetórias sintéticas são frequentemente superespecificadas, assemelhando-se a sequências de instruções em vez de intenções humanas naturais, reduzindo sua eficácia para o treinamento RL. Apresentamos o EnvFactory, uma estrutura totalmente automatizada que aborda ambos os desafios. O EnvFactory explora e verifica autonomamente ambientes de ferramentas executáveis e com estado a partir de recursos autênticos, e sintetiza trajetórias naturais de múltiplos turnos por meio de amostragem ciente da topologia e refinamento calibrado, produzindo consultas fundamentadas com intenções implícitas. Utilizando apenas 85 ambientes verificados em 7 domínios, o EnvFactory gera 2.575 trajetórias SFT e RL. Apesar de usar significativamente menos ambientes do que trabalhos anteriores, que frequentemente são 5 vezes mais, o EnvFactory alcança eficiência de treinamento e desempenho downstream superiores, melhorando os modelos da série Qwen3 em até +15% no BFCLv3, +8,6% no MCP-Atlas e +6% em benchmarks conversacionais incluindo τ^2-Bench e VitaBench. Ao automatizar completamente tanto a construção do ambiente quanto a síntese de trajetórias, o EnvFactory fornece uma base escalável, extensível e robusta para Agentic RL.
English
Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.