MEnvAgent: Construção Escalável de Ambientes Poliglotas para Engenharia de Software Verificável

Resumo

A evolução de agentes baseados em Grandes Modelos de Linguagem (LLMs) para Engenharia de Software (ES) é limitada pela escassez de conjuntos de dados verificáveis, um gargalo decorrente da complexidade de construir ambientes executáveis em diversas linguagens. Para resolver isso, introduzimos o MEnvAgent, uma estrutura multi-linguagem para construção automatizada de ambientes que facilita a geração escalável de instâncias de tarefas verificáveis. O MEnvAgent emprega uma arquitetura multiagente de Planejamento-Execução-Verificação para resolver autonomamente falhas de construção e integra um novo Mecanismo de Reutilização de Ambiente que reduz a sobrecarga computacional através da aplicação incremental de correções em ambientes históricos. Avaliações no MEnvBench, um novo benchmark composto por 1.000 tarefas em 10 linguagens, demonstram que o MEnvAgent supera os métodos de base, melhorando as taxas de Falha-para-Sucesso (F2P) em 8,6% enquanto reduz os custos de tempo em 43%. Adicionalmente, demonstramos a utilidade do MEnvAgent através da construção do MEnvData-SWE, o maior conjunto de dados poliglota de código aberto com ambientes Docker realistas e verificáveis até à data, juntamente com trajetórias de solução que permitem ganhos de desempenho consistentes em tarefas de ES para uma ampla gama de modelos. O nosso código, benchmark e conjunto de dados estão disponíveis em https://github.com/ernie-research/MEnvAgent.

English

The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.

MEnvAgent: Construção Escalável de Ambientes Poliglotas para Engenharia de Software Verificável

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

Resumo

Support