ScaleEnv: Масштабирование синтеза среды с нуля для обучения агентов-универсалов, использующих интерактивные инструменты
ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training
February 6, 2026
Авторы: Dunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai
cs.AI
Аннотация
Обучение универсальных агентов, способных адаптироваться к разнообразным сценариям, требует интерактивных сред для самостоятельного исследования. Однако интерактивные среды остаются крайне дефицитными, а существующие методы синтеза имеют существенные ограничения в отношении разнообразия и масштабируемости сред. Для решения этих проблем мы представляем ScaleEnv — фреймворк, который создает полностью интерактивные среды и верифицируемые задачи с нуля. В частности, ScaleEnv обеспечивает надежность среды за счет процедурного тестирования и гарантирует полноту и разрешимость задач с помощью расширения графа зависимостей инструментов и проверки исполняемых действий. Позволяя агентам обучаться через исследование внутри ScaleEnv, мы демонстрируем значительное улучшение производительности на ранее не встречавшихся бенчмарках многократного использования инструментов, таких как τ^2-Bench и VitaBench, что подчеркивает сильные способности к обобщению. Кроме того, мы исследуем взаимосвязь между увеличением числа доменов и обобщающей способностью модели, предоставляя эмпирические доказательства того, что масштабирование разнообразия сред критически важно для надежного обучения агентов.
English
Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.