MEnvAgent: Construcción de Entornos Políglotas Escalables para la Ingeniería de Software Verificable

Resumen

La evolución de los agentes de Modelos de Lenguaje a Gran Escala (LLM) para ingeniería de software (SWE) se ve limitada por la escasez de conjuntos de datos verificables, un cuello de botella que surge de la complejidad de construir entornos ejecutables en diversos lenguajes. Para abordar este problema, presentamos MEnvAgent, un marco de trabajo multilingüe para la construcción automatizada de entornos que facilita la generación escalable de instancias de tareas verificables. MEnvAgent emplea una arquitectura multiagente de Planificación-Ejecución-Verificación para resolver autónomamente fallos de construcción e integra un novedoso Mecanismo de Reutilización de Entornos que reduce la sobrecarga computacional mediante la aplicación incremental de parches a entornos históricos. Las evaluaciones en MEnvBench, un nuevo benchmark que comprende 1.000 tareas en 10 lenguajes, demuestran que MEnvAgent supera a los métodos de referencia, mejorando las tasas de Fallo-a-Aprobado (F2P) en un 8,6% mientras reduce los costes de tiempo en un 43%. Adicionalmente, demostramos la utilidad de MEnvAgent construyendo MEnvData-SWE, el mayor conjunto de datos poliglota de código abierto de entornos Docker realistas y verificables hasta la fecha, junto con trayectorias de solución que permiten ganancias consistentes de rendimiento en tareas SWE en una amplia gama de modelos. Nuestro código, benchmark y conjunto de datos están disponibles en https://github.com/ernie-research/MEnvAgent.

English

The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.

MEnvAgent: Construcción de Entornos Políglotas Escalables para la Ingeniería de Software Verificable

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

Resumen

Support