ChatPaper.aiChatPaper

MEnvAgent : Construction d'environnements polyglottes évolutifs pour l'ingénierie logicielle vérifiable

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

January 30, 2026
papers.authors: Chuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang
cs.AI

papers.abstract

L'évolution des agents de modèles de langage de grande taille (LLM) pour l'ingénierie logicielle (SWE) est limitée par la rareté des ensembles de données vérifiables, un goulot d'étranglement découlant de la complexité de construction d'environnements exécutables dans divers langages. Pour résoudre ce problème, nous présentons MEnvAgent, un cadre multi-langage pour la construction automatisée d'environnements qui facilite la génération évolutive d'instances de tâches vérifiables. MEnvAgent utilise une architecture Planification-Exécution-Vérification multi-agents pour résoudre de manière autonome les échecs de construction et intègre un nouveau mécanisme de Réutilisation d'Environnement qui réduit la surcharge computationnelle en corrigeant progressivement les environnements historiques. Les évaluations sur MEnvBench, un nouveau benchmark comprenant 1 000 tâches dans 10 langages, démontrent que MEnvAgent surpasse les approches de référence, améliorant les taux d'échec à réussite (F2P) de 8,6 % tout en réduisant les coûts temporels de 43 %. De plus, nous démontrons l'utilité de MEnvAgent en construisant MEnvData-SWE, le plus grand ensemble de données polyglotte open-source d'environnements Docker vérifiables réalistes à ce jour, accompagné de trajectoires de solution qui permettent des gains de performance cohérents sur les tâches SWE pour un large éventail de modèles. Notre code, benchmark et ensemble de données sont disponibles à l'adresse https://github.com/ernie-research/MEnvAgent.
English
The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.
PDF131February 6, 2026