ChatPaper.aiChatPaper

EnvScaler: Escalado de Entornos Interactivos para Herramientas de Agentes LLM mediante Síntesis Programática

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

January 9, 2026
Autores: Xiaoshuai Song, Haofei Chang, Guanting Dong, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen
cs.AI

Resumen

Se espera que los grandes modelos de lenguaje (LLM) sean entrenados para actuar como agentes en diversos entornos del mundo real, pero este proceso depende de entornos de pruebas (sandboxes) ricos y variados para la interacción con herramientas. Sin embargo, el acceso a sistemas reales suele estar restringido; los entornos simulados por LLM son propensos a alucinaciones e inconsistencias; y los entornos de prueba construidos manualmente son difíciles de escalar. En este artículo, proponemos EnvScaler, un marco automatizado para entornos escalables de interacción con herramientas mediante síntesis programática. EnvScaler comprende dos componentes. Primero, SkelBuilder construye diversos esqueletos de entorno mediante minería de temas, modelado lógico y evaluación de calidad. Luego, ScenGenerator genera múltiples escenarios de tareas y funciones de validación de trayectorias basadas en reglas para cada entorno. Con EnvScaler, sintetizamos 191 entornos y aproximadamente 7.000 escenarios, y los aplicamos al Fine-Tuning Supervisado (SFT) y al Aprendizaje por Refuerzo (RL) para los modelos de la serie Qwen3. Los resultados en tres benchmarks muestran que EnvScaler mejora significativamente la capacidad de los LLM para resolver tareas en entornos complejos que involucran interacciones multi-turno y multi-herramienta. Publicamos nuestro código y datos en https://github.com/RUC-NLPIR/EnvScaler.
English
Large language models (LLMs) are expected to be trained to act as agents in various real-world environments, but this process relies on rich and varied tool-interaction sandboxes. However, access to real systems is often restricted; LLM-simulated environments are prone to hallucinations and inconsistencies; and manually built sandboxes are hard to scale. In this paper, we propose EnvScaler, an automated framework for scalable tool-interaction environments via programmatic synthesis. EnvScaler comprises two components. First, SkelBuilder constructs diverse environment skeletons through topic mining, logic modeling, and quality evaluation. Then, ScenGenerator generates multiple task scenarios and rule-based trajectory validation functions for each environment. With EnvScaler, we synthesize 191 environments and about 7K scenarios, and apply them to Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) for Qwen3 series models. Results on three benchmarks show that EnvScaler significantly improves LLMs' ability to solve tasks in complex environments involving multi-turn, multi-tool interactions. We release our code and data at https://github.com/RUC-NLPIR/EnvScaler.
PDF244January 13, 2026