EnvFactory: Escalando Agentes de Uso de Herramientas mediante Síntesis de Entornos Ejecutables y RL Robusto

Resumen

Dotar a los LLM de capacidades de uso de herramientas mediante Aprendizaje por Refuerzo Agéntico (ARL) se ve limitado por dos desafíos: la falta de entornos de ejecución escalables y robustos, y la escasez de datos de entrenamiento realistas que capturen el razonamiento humano implícito. Los enfoques existentes dependen de costosas API del mundo real, simuladores de LLM propensos a alucinaciones o entornos sintéticos que a menudo son de un solo turno o dependen de documentos previamente recopilados. Además, las trayectorias sintéticas suelen estar sobreespecificadas, asemejándose a secuencias de instrucciones más que a intenciones humanas naturales, lo que reduce su eficacia para el entrenamiento con RL. Presentamos EnvFactory, un marco totalmente automatizado que aborda ambos desafíos. EnvFactory explora y verifica de forma autónoma entornos de herramientas ejecutables y con estado a partir de recursos auténticos, y sintetiza trayectorias naturales de múltiples turnos mediante muestreo consciente de la topología y refinamiento calibrado, produciendo consultas fundamentadas con intenciones implícitas. Utilizando solo 85 entornos verificados en 7 dominios, EnvFactory genera 2.575 trayectorias de SFT y RL. A pesar de utilizar significativamente menos entornos que trabajos anteriores, que a menudo son 5 veces más, EnvFactory logra una eficiencia de entrenamiento y un rendimiento posteriores superiores, mejorando los modelos de la serie Qwen3 hasta en un +15 % en BFCLv3, +8,6 % en MCP-Atlas y +6 % en puntos de referencia conversacionales como τ^2-Bench y VitaBench. Al automatizar completamente tanto la construcción del entorno como la síntesis de trayectorias, EnvFactory proporciona una base escalable, extensible y robusta para el ARL.

English

Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.