ScaleEnv: Escalado de Síntesis de Entornos desde Cero para el Entrenamiento de Agentes Generalistas de Uso de Herramientas Interactivas
ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training
February 6, 2026
Autores: Dunwei Tu, Hongyan Hao, Hansi Yang, Yihao Chen, Yi-Kai Zhang, Zhikang Xia, Yu Yang, Yueqing Sun, Xingchen Liu, Furao Shen, Qi Gu, Hui Su, Xunliang Cai
cs.AI
Resumen
Entrenar agentes generalistas capaces de adaptarse a diversos escenarios requiere entornos interactivos para la autoexploración. Sin embargo, los entornos interactivos siguen siendo críticamente escasos, y los métodos de síntesis existentes adolecen de limitaciones significativas en cuanto a diversidad ambiental y escalabilidad. Para abordar estos desafíos, presentamos ScaleEnv, un marco que construye entornos completamente interactivos y tareas verificables desde cero. Específicamente, ScaleEnv garantiza la fiabilidad del entorno mediante pruebas procedurales, y asegura la integridad y la capacidad de resolución de las tareas mediante la expansión del grafo de dependencias de herramientas y la verificación de acciones ejecutables. Al permitir que los agentes aprendan mediante la exploración dentro de ScaleEnv, demostramos mejoras significativas en el rendimiento en benchmarks de uso de herramientas multietapa no vistos, como τ²-Bench y VitaBench, destacando fuertes capacidades de generalización. Además, investigamos la relación entre el aumento del número de dominios y el rendimiento de generalización del modelo, proporcionando evidencia empírica de que escalar la diversidad ambiental es crucial para un aprendizaje robusto de los agentes.
English
Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.