ChatPaper.aiChatPaper

MEnvAgent: 검증 가능한 소프트웨어 공학을 위한 확장 가능한 다중 언어 환경 구축

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

January 30, 2026
저자: Chuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang
cs.AI

초록

소프트웨어 공학(Software Engineering, SWE)을 위한 대규모 언어 모델(Large Language Model, LLM) 에이전트의 발전은 다양한 프로그래밍 언어에 걸쳐 실행 가능한 환경을 구축하는 복잡성에서 비롯된 검증 가능 데이터셋의 부족이라는 병목 현상에 의해 제약을 받고 있습니다. 이를 해결하기 위해 우리는 검증 가능한 작업 인스턴스의 확장적 생성을 용이하게 하는 자동화된 환경 구축을 위한 다중 언어 프레임워크인 MEnvAgent를 소개합니다. MEnvAgent는 구축 실패를 자율적으로 해결하기 위해 다중 에이전트 기반 계획-실행-검증(Planning-Execution-Verification) 아키텍처를 채택하고, 기존 환경을 점진적으로 패치하여 계산 오버헤드를 줄이는 새로운 환경 재사용 메커니즘(Environment Reuse Mechanism)을 통합합니다. 10개 언어에 걸친 1,000개 작업으로 구성된 새로운 벤치마크인 MEnvBench에서의 평가 결과, MEnvAgent가 기준 모델들을 능가하며 실패-대-성공(Fail-to-Pass, F2P) 비율을 8.6% 향상시키고 시간 비용을 43% 절감하는 것으로 나타났습니다. 또한, 우리는 MEnvAgent의 유용성을 입증하기 위해 현재까지 가장 큰 규모의 오픈소스 다중 언어 현실적 검증 가능 Docker 환경 데이터셋인 MEnvData-SWE와 다양한 모델들에 걸쳐 SWE 작업에서 일관된 성능 향상을 가능하게 하는 솔루션 궤적(Solution Trajectories)을 함께 구축했습니다. 우리의 코드, 벤치마크 및 데이터셋은 https://github.com/ernie-research/MEnvAgent 에서 이용할 수 있습니다.
English
The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.
PDF131February 6, 2026