ChatPaper.aiChatPaper

ScaleEnv: Skalierbare Umgebungssynthese von Grund auf für das Training generalistischer interaktiver Werkzeugnutzungsagenten

ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

February 6, 2026
papers.authors: Dunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai
cs.AI

papers.abstract

Die Ausbildung generalistischer Agenten, die in der Lage sind, sich an verschiedene Szenarien anzupassen, erfordert interaktive Umgebungen zur Selbsterkundung. Interaktive Umgebungen sind jedoch nach wie vor äußerst knapp, und bestehende Synthesemethoden weisen erhebliche Einschränkungen hinsichtlich der Umgebungsvielfalt und Skalierbarkeit auf. Um diese Herausforderungen zu bewältigen, stellen wir ScaleEnv vor, ein Framework, das vollständig interaktive Umgebungen und verifizierbare Aufgaben vollständig von Grund auf erstellt. Konkret gewährleistet ScaleEnv die Zuverlässigkeit der Umgebung durch prozedurale Tests und garantiert Aufgabenvollständigkeit und Lösbarkeit durch die Erweiterung von Werkzeugabhängigkeitsgraphen und die Verifizierung ausführbarer Aktionen. Indem wir Agenten ermöglichen, durch Exploration innerhalb von ScaleEnv zu lernen, demonstrieren wir signifikante Leistungsverbesserungen bei unbekannten, mehrstufigen Werkzeugeinsatz-Benchmarks wie τ^2-Bench und VitaBench, was auf starke Generalisierungsfähigkeiten hindeutet. Darüber hinaus untersuchen wir die Beziehung zwischen der zunehmenden Anzahl von Domänen und der Generalisierungsleistung des Modells und liefern empirische Belege dafür, dass die Skalierung der Umgebungsvielfalt entscheidend für robustes Agentenlernen ist.
English
Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.
PDF121February 12, 2026