ChatPaper.aiChatPaper

EnvFactory: масштабирование агентов, использующих инструменты, посредством синтеза исполняемых сред и робастного обучения с подкреплением

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

May 18, 2026
Авторы: Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo
cs.AI

Аннотация

Оснащение LLM способностями к использованию инструментов посредством агентного обучения с подкреплением (Agentic RL) ограничено двумя проблемами: отсутствием масштабируемых и надежных сред выполнения, а также нехваткой реалистичных обучающих данных, отражающих неявные человеческие рассуждения. Существующие подходы опираются на дорогостоящие реальные API, подверженные галлюцинациям LLM-симуляторы или синтетические среды, которые зачастую являются одношаговыми или зависят от предварительно собранных документов. Кроме того, синтетические траектории часто оказываются излишне конкретизированными, напоминая последовательности инструкций, а не естественные человеческие намерения, что снижает их эффективность для обучения с подкреплением. Мы представляем EnvFactory — полностью автоматизированную среду, решающую обе проблемы. EnvFactory автономно исследует и верифицирует сохранные, исполнимые инструментальные среды на основе аутентичных ресурсов, а также синтезирует естественные многошаговые траектории с помощью топологически-осознанной выборки и калиброванного уточнения, создавая обоснованные запросы с неявными намерениями. Используя всего 85 верифицированных сред из 7 доменов, EnvFactory генерирует 2575 SFT- и RL-траекторий. Несмотря на использование значительно меньшего количества сред (часто в 5 раз меньше) по сравнению с предыдущими работами, EnvFactory демонстрирует превосходную эффективность обучения и downstream-производительность, улучшая модели серии Qwen3 на величину до +15% на BFCLv3, +8,6% на MCP-Atlas и +6% на разговорных бенчмарках, включая τ^2-Bench и VitaBench. Полностью автоматизируя как создание сред, так и синтез траекторий, EnvFactory обеспечивает масштабируемую, расширяемую и надежную основу для Agentic RL.
English
Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches depend on costly real-world APIs, hallucination-prone LLM simulators, or synthetic environments that are often single-turn or depend on pre-collected documents. Moreover, synthetic trajectories are frequently over-specified, resembling instruction sequences rather than natural human intents, reducing their effectiveness for RL training. We introduce EnvFactory, a fully automated framework that addresses both challenges. EnvFactory autonomously explores and verifies stateful, executable tool environments from authentic resources, and synthesizes natural multi-turn trajectories through topology-aware sampling and calibrated refinement, producing grounded queries with implicit intents. Using only 85 verified environments across 7 domains, EnvFactory generates 2,575 SFT and RL trajectories. Despite using significantly fewer environments than prior work, which are often 5 times more, EnvFactory achieves superior training efficiency and downstream performance, improving Qwen3-series models by up to +15% on BFCLv3, +8.6% on MCP-Atlas, and +6% on conversational benchmarks including τ^2-Bench and VitaBench. By fully automating both environment construction and trajectory synthesis, EnvFactory provides a scalable, extensible, and robust foundation for Agentic RL.