Multi-SWE-bench: Ein mehrsprachiger Benchmark für die ProblemlösungMulti-SWE-bench: A Multilingual Benchmark for Issue Resolving
Die Aufgabe der Problembehebung besteht darin, eine Codebasis so zu modifizieren, dass ein Patch erstellt wird, der ein bestimmtes Problem löst. Bestehende Benchmarks wie SWE-bench konzentrieren sich jedoch fast ausschließlich auf Python, was sie für die Bewertung von Large Language Models (LLMs) in verschiedenen Software-Ökosystemen unzureichend macht. Um dies zu beheben, führen wir einen mehrsprachigen Benchmark für die Problembehebung ein, genannt Multi-SWE-bench, der Java, TypeScript, JavaScript, Go, Rust, C und C++ abdeckt. Er umfasst insgesamt 1.632 hochwertige Instanzen, die von 68 Expert:innen aus 2.456 Kandidaten sorgfältig annotiert wurden, um sicherzustellen, dass der Benchmark eine präzise und zuverlässige Bewertung ermöglicht. Basierend auf Multi-SWE-bench evaluieren wir eine Reihe von state-of-the-art Modellen mit drei repräsentativen Methoden (Agentless, SWE-agent und OpenHands) und präsentieren eine umfassende Analyse mit wichtigen empirischen Erkenntnissen. Zusätzlich starten wir die Multi-SWE-RL Open-Source-Community, die darauf abzielt, groß angelegte Reinforcement Learning (RL)-Trainingsdatensätze für Aufgaben der Problembehebung zu erstellen. Als ersten Beitrag veröffentlichen wir einen Satz von 4.723 gut strukturierten Instanzen, die sieben Programmiersprachen abdecken, und legen damit eine solide Grundlage für die RL-Forschung in diesem Bereich. Noch wichtiger ist, dass wir unsere gesamte Datenproduktionspipeline zusammen mit detaillierten Tutorials open-source bereitstellen, um die Open-Source-Community zu ermutigen, kontinuierlich beizutragen und den Datensatz zu erweitern. Wir sehen unseren Multi-SWE-bench und die stetig wachsende Multi-SWE-RL-Community als Katalysatoren, um RL weiter voranzutreiben und uns damit dem Anbruch der AGI (Artificial General Intelligence) einen Schritt näher zu bringen.