ScaleEnv: Escalonamento da Síntese de Ambientes do Zero para Treinamento de Agentes Generalistas no Uso de Ferramentas Interativas

Resumo

A formação de agentes generalistas capazes de se adaptarem a diversos cenários requer ambientes interativos para autoexploração. No entanto, ambientes interativos continuam criticamente escassos, e os métodos de síntese existentes sofrem de limitações significativas em relação à diversidade e escalabilidade ambiental. Para enfrentar esses desafios, apresentamos o ScaleEnv, uma estrutura que constrói ambientes totalmente interativos e tarefas verificáveis totalmente do zero. Especificamente, o ScaleEnv garante a confiabilidade do ambiente por meio de testes procedurais e assegura a completude e a solucionabilidade das tarefas através da expansão do grafo de dependência de ferramentas e da verificação de ações executáveis. Ao permitir que os agentes aprendam por meio da exploração dentro do ScaleEnv, demonstramos melhorias significativas de desempenho em benchmarks não vistos de uso de ferramentas de múltiplos turnos, como o τ²-Bench e o VitaBench, destacando fortes capacidades de generalização. Além disso, investigamos a relação entre o aumento do número de domínios e o desempenho de generalização do modelo, fornecendo evidências empíricas de que a escalonamento da diversidade ambiental é fundamental para um aprendizado robusto de agentes.

English

Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as τ^2-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.

ScaleEnv: Escalonamento da Síntese de Ambientes do Zero para Treinamento de Agentes Generalistas no Uso de Ferramentas Interativas

ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

Resumo

Support