EnvFactory: Skalierung von Werkzeugnutzungsagenten mittels Synthese ausführbarer Umgebungen und robustem Reinforcement Learning

Zusammenfassung

Die Ausstattung von LLMs mit Fähigkeiten zur Werkzeugnutzung durch agentisches Reinforcement Learning (Agentic RL) wird durch zwei Herausforderungen eingeschränkt: das Fehlen skalierbarer, robuster Ausführungsumgebungen und die Knappheit realistischer Trainingsdaten, die implizites menschliches Denken erfassen. Bestehende Ansätze sind auf kostspielige reale APIs, zu Halluzinationen neigende LLM-Simulatoren oder synthetische Umgebungen angewiesen, die oft nur einzelne Interaktionen umfassen oder auf vorab gesammelten Dokumenten basieren. Darüber hinaus sind synthetische Trajektorien häufig über-spezifiziert und ähneln eher Anweisungssequenzen als natürlichen menschlichen Absichten, was ihre Wirksamkeit für das RL-Training verringert. Wir stellen EnvFactory vor, ein vollautomatisches Framework, das beide Herausforderungen adressiert. EnvFactory erkundet und verifiziert eigenständig zustandsbehaftete, ausführbare Werkzeugumgebungen aus authentischen Ressourcen und synthetisiert natürliche mehrschrittige Trajektorien mittels topologiebewusstem Sampling und kalibrierter Verfeinerung, wodurch fundierte Anfragen mit impliziten Absichten entstehen. Mit nur 85 verifizierten Umgebungen aus 7 Domänen generiert EnvFactory 2.575 SFT- und RL-Trajektorien. Trotz der Verwendung deutlich weniger Umgebungen als frühere Arbeiten – die oft fünfmal so viele nutzen – erzielt EnvFactory eine überlegene Trainingseffizienz und bessere Leistung in nachgelagerten Anwendungen: Verbesserungen bei Qwen3-Modellen um bis zu +15 % auf BFCLv3, +8,6 % auf MCP-Atlas und +6 % bei Konversations-Benchmarks wie τ^2-Bench und VitaBench. Durch die vollständige Automatisierung sowohl der Umgebungskonstruktion als auch der Trajektoriensynthese bietet EnvFactory eine skalierbare, erweiterbare und robuste Grundlage für Agentic RL.

English

Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.