MEnvAgent: Costruzione Scalabile di Ambienti Poliglotti per l'Ingegneria del Software Verificabile
MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering
January 30, 2026
Autori: Chuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang
cs.AI
Abstract
L'evoluzione degli agenti basati su Large Language Model (LLM) per l'ingegneria del software (SWE) è limitata dalla scarsità di dataset verificabili, un collo di bottiglia derivante dalla complessità di costruire ambienti eseguibili in diversi linguaggi di programmazione. Per affrontare questo problema, introduciamo MEnvAgent, un framework multi-linguaggio per la costruzione automatizzata di ambienti che facilita la generazione scalabile di istanze di attività verificabili. MEnvAgent utilizza un'architettura multi-agente di Pianificazione-Esecuzione-Verifica per risolvere autonomamente i fallimenti di costruzione e integra un innovativo Meccanismo di Riuso degli Ambienti che riduce il sovraccarico computazionale mediante l'applicazione incrementale di patch ad ambienti storici. Le valutazioni su MEnvBench, un nuovo benchmark comprendente 1.000 attività in 10 linguaggi, dimostrano che MEnvAgent supera i baseline, migliorando i tassi di Fallimento-Passaggio (F2P) dell'8,6% riducendo al contempo i costi temporali del 43%. Inoltre, dimostriamo l'utilità di MEnvAgent costruendo MEnvData-SWE, il più grande dataset poliglotta open-source di ambienti Docker realistici e verificabili finora disponibile, corredato da traiettorie risolutive che consentono miglioramenti prestazionali consistenti su attività SWE per un'ampia gamma di modelli. Il nostro codice, benchmark e dataset sono disponibili su https://github.com/ernie-research/MEnvAgent.
English
The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.