ChatPaper.aiChatPaper

EnvScaler: Schaalbaarheid van Tool-Interactieve Omgevingen voor LLM-Agenten via Programmatische Synthese

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

January 9, 2026
Auteurs: Xiaoshuai Song, Haofei Chang, Guanting Dong, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen
cs.AI

Samenvatting

Grote taalmodellen (LLM's) worden naar verwachting getraind om als agenten in diverse real-world omgevingen te functioneren, maar dit proces is afhankelijk van rijke en gevarieerde sandboxen voor toolinteractie. Toegang tot echte systemen is echter vaak beperkt; door LLM's gesimuleerde omgevingen zijn gevoelig voor hallucinaties en inconsistenties; en handmatig gebouwde sandboxen zijn moeilijk schaalbaar. In dit artikel stellen we EnvScaler voor, een geautomatiseerd framework voor schaalbare toolinteractie-omgevingen via programmatische synthese. EnvScaler bestaat uit twee componenten. Ten eerste construeert SkelBuilder diverse omgevingsskeletten via topic mining, logische modellering en kwaliteitsevaluatie. Vervolgens genereert ScenGenerator meerdere taakscenario's en op regels gebaseerde validatiefuncties voor trajecten voor elke omgeving. Met EnvScaler synthetiseren we 191 omgevingen en ongeveer 7.000 scenario's, en passen we deze toe op Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) voor Qwen3-seri modellen. Resultaten op drie benchmarks tonen aan dat EnvScaler het vermogen van LLM's om taken op te lossen in complexe omgevingen met multi-turn, multi-tool interacties significant verbetert. We geven onze code en data vrij op https://github.com/RUC-NLPIR/EnvScaler.
English
Large language models (LLMs) are expected to be trained to act as agents in various real-world environments, but this process relies on rich and varied tool-interaction sandboxes. However, access to real systems is often restricted; LLM-simulated environments are prone to hallucinations and inconsistencies; and manually built sandboxes are hard to scale. In this paper, we propose EnvScaler, an automated framework for scalable tool-interaction environments via programmatic synthesis. EnvScaler comprises two components. First, SkelBuilder constructs diverse environment skeletons through topic mining, logic modeling, and quality evaluation. Then, ScenGenerator generates multiple task scenarios and rule-based trajectory validation functions for each environment. With EnvScaler, we synthesize 191 environments and about 7K scenarios, and apply them to Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) for Qwen3 series models. Results on three benchmarks show that EnvScaler significantly improves LLMs' ability to solve tasks in complex environments involving multi-turn, multi-tool interactions. We release our code and data at https://github.com/RUC-NLPIR/EnvScaler.
PDF345January 16, 2026