ScaleEnv: 일반 도구 사용 상호작용 에이전트 훈련을 위한 스크래치 환경 합성 확장 기법
ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training
February 6, 2026
저자: Dunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai
cs.AI
초록
다양한 시나리오에 적응 가능한 일반형 에이전트를 훈련시키기 위해서는 자가 탐색을 위한 상호작용 환경이 필요합니다. 그러나 상호작용 환경은 여전히 심각하게 부족한 실정이며, 기존 환경 합성 방법론은 환경 다양성과 확장성 측면에서 상당한 한계를 지니고 있습니다. 이러한 문제를 해결하기 위해 우리는 완전한 상호작용 환경과 검증 가능한 작업을 처음부터 구축하는 프레임워크인 ScaleEnv를 제안합니다. 구체적으로 ScaleEnv는 절차적 테스트를 통해 환경 신뢰성을 보장하며, 도구 의존성 그래프 확장과 실행 가능 액션 검증을 통해 작업 완전성과 해결 가능성을 보장합니다. ScaleEnv 내에서 탐색을 통해 에이전트가 학습하도록 함으로써, τ^2-Bench 및 VitaBench와 같은 unseen 다중-턴 도구 사용 벤치마크에서 뚜렷한 성능 향상을 입증하여 강력한 일반화 능력을 입증했습니다. 나아가 우리는 도메인 수 증가와 모델 일반화 성능 간의 관계를 분석함으로써, 환경 다양성 확장이 강건한 에이전트 학습에 중요하다는 경험적 증거를 제시합니다.
English
Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.