MEnvAgent: 検証可能なソフトウェア工学のためのスケーラブルな多言語環境構築

要旨

ソフトウェア工学（SWE）における大規模言語モデル（LLM）エージェントの進化は、検証可能なデータセットの不足によって制約を受けている。このボトルネックは、多様なプログラミング言語にわたって実行可能な環境を構築する複雑さに起因する。この問題に対処するため、本論文では**MEnvAgent**を提案する。これは検証可能なタスクインスタンスのスケーラブルな生成を促進する、自動環境構築のためのマルチ言語フレームワークである。MEnvAgentは、構築失敗を自律的に解決するマルチエージェントの「計画-実行-検証」アーキテクチャを採用し、計算オーバーヘッドを削減する新しい環境再利用メカニズムを統合する。このメカニズムは、過去の環境を段階的に修正することで機能する。10言語にわたる1,000タスクからなる新ベンチマーク**MEnvBench**による評価では、MEnvAgentがベースライン手法を上回り、Fail-to-Pass（F2P）率を8.6%改善し、時間コストを43%削減することを実証した。さらに、MEnvAgentの有用性を、これまでで最大規模の現実的な検証可能なDocker環境からなるオープンソースの多言語データセット**MEnvData-SWE**と、様々なモデルにおけるSWEタスクの一貫した性能向上を可能にする解法軌道を構築することで実証する。我々のコード、ベンチマーク、データセットはhttps://github.com/ernie-research/MEnvAgent で公開されている。

English

The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.

MEnvAgent: 検証可能なソフトウェア工学のためのスケーラブルな多言語環境構築

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

要旨

Support