ScaleEnv: 汎用インタラクティブツール利用エージェント訓練のための環境合成手法のゼロからのスケーリング
ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training
February 6, 2026
著者: Dunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai
cs.AI
要旨
多様なシナリオに適応可能な汎用エージェントの訓練には、自己探索のための対話型環境が不可欠である。しかし、対話型環境は依然として深刻に不足しており、既存の環境合成手法は環境の多様性とスケーラビリティにおいて重大な限界に直面している。これらの課題に対処するため、我々は完全にインタラクティブな環境と検証可能なタスクを一から構築するフレームワーク「ScaleEnv」を提案する。具体的には、ScaleEnvは手続き的テストによる環境の信頼性を確保し、ツール依存グラフの展開と実行可能アクションの検証によるタスクの完全性と解決可能性を保証する。ScaleEnv内での探索を通じてエージェントが学習することを可能にすることで、τ^2-BenchやVitaBenchといった未見のマルチターンツール使用ベンチマークにおいて顕著な性能向上を示し、強力な一般化能力を実証した。さらに、ドメイン数の増加とモデルの一般化性能の関係を調査し、環境多様性のスケーリングが堅牢なエージェント学習にとって重要であるという実証的証拠を提供する。
English
Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.