ChatPaper.aiChatPaper

ScaleEnv : Mise à l'échelle de la synthèse d'environnements à partir de zéro pour l'entraînement d'agents généralistes à l'utilisation d'outils interactifs

ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

February 6, 2026
papers.authors: Dunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai
cs.AI

papers.abstract

L'entraînement d'agents généralistes capables de s'adapter à des scénarios divers nécessite des environnements interactifs pour l'auto-exploration. Cependant, les environnements interactifs restent cruellement rares, et les méthodes de synthèse existantes souffrent de limitations importantes en matière de diversité environnementale et d'évolutivité. Pour relever ces défis, nous présentons ScaleEnv, un cadre qui construit des environnements entièrement interactifs et des tâches vérifiables entièrement à partir de zéro. Plus précisément, ScaleEnv garantit la fiabilité de l'environnement par des tests procéduraux, et assure l'exhaustivité et la solvabilité des tâches via l'expansion d'un graphe de dépendance d'outils et la vérification d'actions exécutables. En permettant aux agents d'apprendre par l'exploration au sein de ScaleEnv, nous démontrons des améliorations significatives des performances sur des benchmarks de l'utilisation d'outils en tours multiples et non vus, tels que τ^2-Bench et VitaBench, mettant en évidence de fortes capacités de généralisation. De plus, nous étudions la relation entre l'augmentation du nombre de domaines et les performances de généralisation du modèle, fournissant des preuves empiriques que l'augmentation de la diversité environnementale est essentielle pour un apprentissage robuste des agents.
English
Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.
PDF121February 12, 2026