ChatPaper.aiChatPaper

MEnvAgent: Schaalbare polyglot omgevingsconstructie voor verifieerbare software-engineering

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

January 30, 2026
Auteurs: Chuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang
cs.AI

Samenvatting

De evolutie van Large Language Model (LLM)-agenten voor software engineering (SWE) wordt beperkt door de schaarste aan verifieerbare datasets, een knelpunt dat voortvloeit uit de complexiteit van het opzetten van uitvoerbare omgevingen voor diverse programmeertalen. Om dit aan te pakken, introduceren we MEnvAgent, een multi-language raamwerk voor geautomatiseerde omgevingsconstructie dat de schaalbare generatie van verifieerbare taakinstanties vergemakkelijkt. MEnvAgent gebruikt een multi-agent Planning-Uitvoering-Verificatie-architectuur om constructiefouten autonoom op te lossen en integreert een nieuwe Environment Reuse Mechanism dat de rekenkosten verlaagt door historische omgevingen incrementeel aan te passen. Evaluaties op MEnvBench, een nieuwe benchmark met 1.000 taken in 10 talen, tonen aan dat MEnvAgent de baseline-methoden overtreft, met een verbetering van de Fail-to-Pass (F2P) ratio van 8,6% en een verlaging van de tijdskosten met 43%. Daarnaast tonen we de bruikbaarheid van MEnvAgent aan door de constructie van MEnvData-SWE, de grootste open-source polyglot dataset tot nu toe van realistische, verifieerbare Docker-omgevingen, inclusief oplossingstrajecten die consistente prestatieverbeteringen mogelijk maken voor SWE-taken bij een breed scala aan modellen. Onze code, benchmark en dataset zijn beschikbaar op https://github.com/ernie-research/MEnvAgent.
English
The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.
PDF131February 6, 2026