MEnvAgent: Масштабируемое полиглотное построение окружения для верифицируемой инженерии программного обеспечения
MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering
January 30, 2026
Авторы: Chuanzhe Guo, Jingjing Wu, Sijun He, Yang Chen, Zhaoqi Kuang, Shilong Fan, Bingjin Chen, Siqi Bao, Jing Liu, Hua Wu, Qingfu Zhu, Wanxiang Che, Haifeng Wang
cs.AI
Аннотация
Развитие агентов на основе больших языковых моделей (LLM) для задач программной инженерии (SWE) сдерживается нехваткой верифицируемых наборов данных — узким местом, вызванным сложностью создания исполняемых сред для различных языков программирования. Для решения этой проблемы мы представляем MEnvAgent — мультиязыковую платформу для автоматизированного построения сред, которая обеспечивает масштабируемое генерирование проверяемых задач. MEnvAgent использует архитектуру «Планирование-Исполнение-Верификация» на основе мультиагентного подхода для автономного устранения сбоев сборки и включает новый механизм повторного использования сред, снижающий вычислительные затраты за счёт инкрементного исправления исторических сред. Оценка на MEnvBench — новом бенчмарке, содержащем 1000 задач для 10 языков — показывает, что MEnvAgent превосходит базовые методы, повышая показатель Fail-to-Pass (F2P) на 8,6% при сокращении временных затрат на 43%. Кроме того, мы демонстрируем практическую ценность MEnvAgent, создав MEnvData-SWE — крупнейший на сегодняшний день открытый полиглотный набор данных реалистичных верифицируемых Docker-сред, дополненный траекториями решений, которые обеспечивают стабильное улучшение производительности моделей на задачах SWE. Наш код, бенчмарк и набор данных доступны по адресу https://github.com/ernie-research/MEnvAgent.
English
The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.