MEnvAgent: Skalierbare Polyglotte Umgebungskonstruktion für verifizierbare Softwareentwicklung

papers.abstract

Die Entwicklung von Agenten auf Basis großer Sprachmodelle (LLM) für Software Engineering (SWE) wird durch den Mangel an verifizierbaren Datensätzen eingeschränkt, ein Engpass, der sich aus der Komplexität der Erstellung ausführbarer Umgebungen für verschiedene Programmiersprachen ergibt. Um dieses Problem zu lösen, stellen wir MEnvAgent vor, ein Multi-Language-Framework zur automatisierten Umgebungserstellung, das die skalierbare Generierung verifizierbarer Aufgabeninstanzen ermöglicht. MEnvAgent verwendet eine Multi-Agenten-Architektur nach dem Planungs-Ausführungs-Verifikations-Prinzip, um Konstruktionsfehler autonom zu beheben, und integriert einen neuartigen Mechanismus zur Wiederverwendung von Umgebungen, der den Rechenaufwand durch inkrementelles Patchen historischer Umgebungen reduziert. Evaluationen auf MEnvBench, einem neuen Benchmark mit 1.000 Aufgaben in 10 Programmiersprachen, zeigen, dass MEnvAgent Baseline-Methoden übertrifft, indem es die Fail-to-Pass (F2P)-Raten um 8,6 % verbessert und gleichzeitig die Zeitkosten um 43 % senkt. Zudem demonstrieren wir den Nutzen von MEnvAgent durch die Erstellung von MEnvData-SWE, dem bisher größten Open-Source-Polyglot-Datensatz realistischer, verifizierbarer Docker-Umgebungen, ergänzt durch Lösungsverläufe, die konsistente Leistungssteigerungen bei SWE-Aufgaben über eine breite Palette von Modellen ermöglichen. Unser Code, Benchmark und Datensatz sind unter https://github.com/ernie-research/MEnvAgent verfügbar.

English

The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a bottleneck stemming from the complexity of constructing executable environments across diverse languages. To address this, we introduce MEnvAgent, a Multi-language framework for automated Environment construction that facilitates scalable generation of verifiable task instances. MEnvAgent employs a multi-agent Planning-Execution-Verification architecture to autonomously resolve construction failures and integrates a novel Environment Reuse Mechanism that reduces computational overhead by incrementally patching historical environments. Evaluations on MEnvBench, a new benchmark comprising 1,000 tasks across 10 languages, demonstrate that MEnvAgent outperforms baselines, improving Fail-to-Pass (F2P) rates by 8.6% while reducing time costs by 43%. Additionally, we demonstrate the utility of MEnvAgent by constructing MEnvData-SWE, the largest open-source polyglot dataset of realistic verifiable Docker environments to date, alongside solution trajectories that enable consistent performance gains on SWE tasks across a wide range of models. Our code, benchmark, and dataset are available at https://github.com/ernie-research/MEnvAgent.

MEnvAgent: Skalierbare Polyglotte Umgebungskonstruktion für verifizierbare Softwareentwicklung

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

papers.abstract

Support