EnvFactory: Schaalvergroting van Tool-Use Agents via Synthese van Uitvoerbare Omgevingen en Robuuste RL

Samenvatting

Het uitrusten van LLM's met mogelijkheden voor toolgebruik via Agentic Reinforcement Learning (Agentic RL) wordt beperkt door twee uitdagingen: het ontbreken van schaalbare, robuuste uitvoeringsomgevingen en de schaarste aan realistische trainingsdata die impliciete menselijke redenering vastlegt. Bestaande benaderingen zijn afhankelijk van dure real-world API's, voor hallucinatie vatbare LLM-simulators, of synthetische omgevingen die vaak single-turn zijn of afhankelijk zijn van vooraf verzamelde documenten. Bovendien zijn synthetische trajecten vaak overgespecificeerd, waardoor ze meer op instructiereeksen lijken dan op natuurlijke menselijke bedoelingen, wat hun effectiviteit voor RL-training vermindert. We introduceren EnvFactory, een volledig geautomatiseerd raamwerk dat beide uitdagingen aanpakt. EnvFactory verkent en verifieert autonoom stateful, uitvoerbare toolomgevingen op basis van authentieke bronnen, en synthetiseert natuurlijke multi-turn trajecten door middel van topologiebewuste sampling en gekalibreerde verfijning, wat leidt tot gegronde query's met impliciete bedoelingen. Met slechts 85 geverifieerde omgevingen in 7 domeinen genereert EnvFactory 2.575 SFT- en RL-trajecten. Ondanks het gebruik van aanzienlijk minder omgevingen dan eerder werk, dat vaak 5 keer meer omvat, behaalt EnvFactory superieure trainingsefficiëntie en downstream-prestaties, waarbij Qwen3-serie-modellen worden verbeterd met tot +15% op BFCLv3, +8,6% op MCP-Atlas en +6% op conversationele benchmarks zoals τ^2-Bench en VitaBench. Door zowel de omgevingsconstructie als de trajectsynthese volledig te automatiseren, biedt EnvFactory een schaalbare, uitbreidbare en robuuste basis voor Agentic RL.

English

Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.