ScaleEnv: Scalabilità della Sintesi Ambientale da Zero per l'Addestramento di Agenti Generalisti nell'Uso Interattivo di Strumenti

Abstract

L'addestramento di agenti generalisti in grado di adattarsi a scenari diversificati richiede ambienti interattivi per l'auto-esplorazione. Tuttavia, gli ambienti interattivi rimangono criticamente scarsi e i metodi di sintesi esistenti presentano limitazioni significative riguardo alla diversità ambientale e alla scalabilità. Per affrontare queste sfide, introduciamo ScaleEnv, un framework che costruisce ambienti completamente interattivi e compiti verificabili completamente da zero. Nello specifico, ScaleEnv garantisce l'affidabilità dell'ambiente attraverso test procedurali e assicura la completezza e la risolvibilità dei compiti mediante l'espansione del grafo delle dipendenze degli strumenti e la verifica delle azioni eseguibili. Consentendo agli agenti di apprendere attraverso l'esplorazione all'interno di ScaleEnv, dimostriamo significativi miglioramenti delle prestazioni su benchmark non visti precedentemente per l'uso di strumenti multi-turn, come τ^2-Bench e VitaBench, evidenziando forti capacità di generalizzazione. Inoltre, indaghiamo la relazione tra l'aumento del numero di domini e le prestazioni di generalizzazione del modello, fornendo evidenze empiriche che scalare la diversità ambientale è fondamentale per un apprendimento robusto degli agenti.

English

Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.

ScaleEnv: Scalabilità della Sintesi Ambientale da Zero per l'Addestramento di Agenti Generalisti nell'Uso Interattivo di Strumenti

ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

Abstract

Support