EnvFactory: масштабирование агентов, использующих инструменты, посредством синтеза исполняемых сред и робастного обучения с подкреплением

Аннотация

Оснащение LLM способностями к использованию инструментов посредством агентного обучения с подкреплением (Agentic RL) ограничено двумя проблемами: отсутствием масштабируемых и надежных сред выполнения, а также нехваткой реалистичных обучающих данных, отражающих неявные человеческие рассуждения. Существующие подходы опираются на дорогостоящие реальные API, подверженные галлюцинациям LLM-симуляторы или синтетические среды, которые зачастую являются одношаговыми или зависят от предварительно собранных документов. Кроме того, синтетические траектории часто оказываются излишне конкретизированными, напоминая последовательности инструкций, а не естественные человеческие намерения, что снижает их эффективность для обучения с подкреплением. Мы представляем EnvFactory — полностью автоматизированную среду, решающую обе проблемы. EnvFactory автономно исследует и верифицирует сохранные, исполнимые инструментальные среды на основе аутентичных ресурсов, а также синтезирует естественные многошаговые траектории с помощью топологически-осознанной выборки и калиброванного уточнения, создавая обоснованные запросы с неявными намерениями. Используя всего 85 верифицированных сред из 7 доменов, EnvFactory генерирует 2575 SFT- и RL-траекторий. Несмотря на использование значительно меньшего количества сред (часто в 5 раз меньше) по сравнению с предыдущими работами, EnvFactory демонстрирует превосходную эффективность обучения и downstream-производительность, улучшая модели серии Qwen3 на величину до +15% на BFCLv3, +8,6% на MCP-Atlas и +6% на разговорных бенчмарках, включая τ^2-Bench и VitaBench. Полностью автоматизируя как создание сред, так и синтез траекторий, EnvFactory обеспечивает масштабируемую, расширяемую и надежную основу для Agentic RL.

English

Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.