EnvFactory: Escalonamento de Agentes de Uso de Ferramentas via Síntese de Ambientes Executáveis e Aprendizado por Reforço Robusto

Resumo

Equipar LLMs com capacidades de uso de ferramentas via Aprendizagem por Reforço Agentiva (Agentic RL) é limitado por dois desafios: a falta de ambientes de execução escaláveis e robustos, e a escassez de dados de treinamento realistas que capturem o raciocínio implícito humano. Abordagens existentes dependem de APIs do mundo real de alto custo, simuladores de LLM propensos a alucinações, ou ambientes sintéticos que frequentemente são de turno único ou dependem de documentos pré-coletados. Além disso, trajetórias sintéticas são frequentemente superespecificadas, assemelhando-se a sequências de instruções em vez de intenções humanas naturais, reduzindo sua eficácia para o treinamento RL. Apresentamos o EnvFactory, uma estrutura totalmente automatizada que aborda ambos os desafios. O EnvFactory explora e verifica autonomamente ambientes de ferramentas executáveis e com estado a partir de recursos autênticos, e sintetiza trajetórias naturais de múltiplos turnos por meio de amostragem ciente da topologia e refinamento calibrado, produzindo consultas fundamentadas com intenções implícitas. Utilizando apenas 85 ambientes verificados em 7 domínios, o EnvFactory gera 2.575 trajetórias SFT e RL. Apesar de usar significativamente menos ambientes do que trabalhos anteriores, que frequentemente são 5 vezes mais, o EnvFactory alcança eficiência de treinamento e desempenho downstream superiores, melhorando os modelos da série Qwen3 em até +15% no BFCLv3, +8,6% no MCP-Atlas e +6% em benchmarks conversacionais incluindo τ^2-Bench e VitaBench. Ao automatizar completamente tanto a construção do ambiente quanto a síntese de trajetórias, o EnvFactory fornece uma base escalável, extensível e robusta para Agentic RL.

English

Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.