EnvScaler: Scalabilità di Ambienti Interattivi per Strumenti tramite Sintesi Programmabile per Agenti LLM

Abstract

I grandi modelli linguistici (LLM) dovrebbero essere addestrati per agire come agenti in vari ambienti del mondo reale, ma questo processo si basa su sandbox di interazione con strumenti ricche e variegate. Tuttavia, l'accesso ai sistemi reali è spesso limitato; gli ambienti simulati dagli LLM sono soggetti ad allucinazioni e incongruenze; e le sandbox costruite manualmente sono difficili da scalare. In questo articolo, proponiamo EnvScaler, un framework automatizzato per ambienti scalabili di interazione con strumenti tramite sintesi programmatica. EnvScaler comprende due componenti. Innanzitutto, SkelBuilder costruisce scheletri di ambiente diversificati attraverso l'estrazione di argomenti, la modellazione logica e la valutazione della qualità. Successivamente, ScenGenerator genera molteplici scenari di attività e funzioni di convalida delle traiettorie basate su regole per ciascun ambiente. Con EnvScaler, sintetizziamo 191 ambienti e circa 7.000 scenari, e li applichiamo al Fine-Tuning Supervisionato (SFT) e all'Apprendimento per Rinforzo (RL) per i modelli della serie Qwen3. I risultati su tre benchmark mostrano che EnvScaler migliora significativamente la capacità degli LLM di risolvere compiti in ambienti complessi che coinvolgono interazioni multi-turno e multi-strumento. Rilasciamo il nostro codice e i nostri dati all'indirizzo https://github.com/RUC-NLPIR/EnvScaler.

English

Large language models (LLMs) are expected to be trained to act as agents in various real-world environments, but this process relies on rich and varied tool-interaction sandboxes. However, access to real systems is often restricted; LLM-simulated environments are prone to hallucinations and inconsistencies; and manually built sandboxes are hard to scale. In this paper, we propose EnvScaler, an automated framework for scalable tool-interaction environments via programmatic synthesis. EnvScaler comprises two components. First, SkelBuilder constructs diverse environment skeletons through topic mining, logic modeling, and quality evaluation. Then, ScenGenerator generates multiple task scenarios and rule-based trajectory validation functions for each environment. With EnvScaler, we synthesize 191 environments and about 7K scenarios, and apply them to Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) for Qwen3 series models. Results on three benchmarks show that EnvScaler significantly improves LLMs' ability to solve tasks in complex environments involving multi-turn, multi-tool interactions. We release our code and data at https://github.com/RUC-NLPIR/EnvScaler.

EnvScaler: Scalabilità di Ambienti Interattivi per Strumenti tramite Sintesi Programmabile per Agenti LLM

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

Abstract

Support