EnvFactory : Passage à l'échelle des agents utilisant des outils via la synthèse d'environnements exécutables et l'apprentissage par renforcement robuste

Résumé

L'équipement des LLMs en capacités d'utilisation d'outils via l'Apprentissage par Renforcement Agentique (Agentic RL) est limité par deux défis : le manque d'environnements d'exécution robustes et évolutifs, et la rareté de données d'entraînement réalistes capturant le raisonnement humain implicite. Les approches existantes reposent sur des API réelles coûteuses, des simulateurs de LLM sujets aux hallucinations, ou des environnements synthétiques souvent à tour unique ou dépendants de documents pré-collectés. De plus, les trajectoires synthétiques sont fréquemment sur-spécifiées, ressemblant à des séquences d'instructions plutôt qu'à des intentions humaines naturelles, réduisant ainsi leur efficacité pour l'entraînement par RL. Nous présentons EnvFactory, un cadre entièrement automatisé qui répond à ces deux défis. EnvFactory explore et vérifie de manière autonome des environnements d'outils exécutables et avec état à partir de ressources authentiques, et synthétise des trajectoires naturelles multi-tours via un échantillonnage sensible à la topologie et un affinage calibré, produisant des requêtes ancrées avec des intentions implicites. En utilisant seulement 85 environnements vérifiés dans 7 domaines, EnvFactory génère 2 575 trajectoires SFT et RL. Bien qu'il utilise nettement moins d'environnements que les travaux antérieurs (souvent 5 fois plus), EnvFactory atteint une efficacité d'entraînement et des performances aval supérieures, améliorant les modèles de la série Qwen3 jusqu'à +15 % sur BFCLv3, +8,6 % sur MCP-Atlas, et +6 % sur les benchmarks conversationnels incluant τ^2-Bench et VitaBench. En automatisant entièrement à la fois la construction des environnements et la synthèse des trajectoires, EnvFactory offre une base évolutive, extensible et robuste pour l'Agentic RL.

English

Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.