EnvFactory: Escalando Agentes de Uso de Herramientas mediante Síntesis de Entornos Ejecutables y RL Robusto
EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL
May 18, 2026
Autores: Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo
cs.AI
Resumen
Dotar a los LLM de capacidades de uso de herramientas mediante Aprendizaje por Refuerzo Agéntico (ARL) se ve limitado por dos desafíos: la falta de entornos de ejecución escalables y robustos, y la escasez de datos de entrenamiento realistas que capturen el razonamiento humano implícito. Los enfoques existentes dependen de costosas API del mundo real, simuladores de LLM propensos a alucinaciones o entornos sintéticos que a menudo son de un solo turno o dependen de documentos previamente recopilados. Además, las trayectorias sintéticas suelen estar sobreespecificadas, asemejándose a secuencias de instrucciones más que a intenciones humanas naturales, lo que reduce su eficacia para el entrenamiento con RL. Presentamos EnvFactory, un marco totalmente automatizado que aborda ambos desafíos. EnvFactory explora y verifica de forma autónoma entornos de herramientas ejecutables y con estado a partir de recursos auténticos, y sintetiza trayectorias naturales de múltiples turnos mediante muestreo consciente de la topología y refinamiento calibrado, produciendo consultas fundamentadas con intenciones implícitas. Utilizando solo 85 entornos verificados en 7 dominios, EnvFactory genera 2.575 trayectorias de SFT y RL. A pesar de utilizar significativamente menos entornos que trabajos anteriores, que a menudo son 5 veces más, EnvFactory logra una eficiencia de entrenamiento y un rendimiento posteriores superiores, mejorando los modelos de la serie Qwen3 hasta en un +15 % en BFCLv3, +8,6 % en MCP-Atlas y +6 % en puntos de referencia conversacionales como τ^2-Bench y VitaBench. Al automatizar completamente tanto la construcción del entorno como la síntesis de trayectorias, EnvFactory proporciona una base escalable, extensible y robusta para el ARL.
English
Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.