ScaleEnv: Schaalvergroting van Omgeving Synthese vanaf Nul voor de Training van Algemene Interactieve Hulpmiddelengebruikende Agenten

Samenvatting

Het trainen van generalistische agents die zich kunnen aanpassen aan diverse scenario's vereist interactieve omgevingen voor zelfexploratie. Interactieve omgevingen zijn echter nog steeds schaars, en bestaande synthesemethoden kampen met aanzienlijke beperkingen op het gebied van omgevingsdiversiteit en schaalbaarheid. Om deze uitdagingen aan te pakken, introduceren we ScaleEnv, een raamwerk dat volledig interactieve omgevingen en verifieerbare taken volledig vanaf de grond opbouwt. Specifiek waarborgt ScaleEnv de betrouwbaarheid van de omgeving via procedurele tests, en garandeert het de volledigheid en oplosbaarheid van taken via de uitbreiding van tool-afhankelijkheidsgrafen en de verificatie van uitvoerbare acties. Door agents in staat te stellen te leren via exploratie binnen ScaleEnv, demonstreren we significante prestatieverbeteringen op onbekende, multi-turn tool-use benchmarks zoals τ²-Bench en VitaBench, wat sterke generalisatiecapaciteiten aantoont. Verder onderzoeken we de relatie tussen een toenemend aantal domeinen en de generalisatieprestaties van het model, en leveren we empirisch bewijs dat het opschalen van omgevingsdiversiteit cruciaal is voor robuust agent-leren.

English

Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.

ScaleEnv: Schaalvergroting van Omgeving Synthese vanaf Nul voor de Training van Algemene Interactieve Hulpmiddelengebruikende Agenten

ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

Samenvatting

Support