Multi-SWE-bench: Ein mehrsprachiger Benchmark für die Problemlösung
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
April 3, 2025
Autoren: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang
cs.AI
Zusammenfassung
Die Aufgabe der Problembehebung besteht darin, eine Codebasis so zu modifizieren, dass ein Patch erstellt wird, der ein bestimmtes Problem löst. Bestehende Benchmarks wie SWE-bench konzentrieren sich jedoch fast ausschließlich auf Python, was sie für die Bewertung von Large Language Models (LLMs) in verschiedenen Software-Ökosystemen unzureichend macht. Um dies zu beheben, führen wir einen mehrsprachigen Benchmark für die Problembehebung ein, genannt Multi-SWE-bench, der Java, TypeScript, JavaScript, Go, Rust, C und C++ abdeckt. Er umfasst insgesamt 1.632 hochwertige Instanzen, die von 68 Expert:innen aus 2.456 Kandidaten sorgfältig annotiert wurden, um sicherzustellen, dass der Benchmark eine präzise und zuverlässige Bewertung ermöglicht. Basierend auf Multi-SWE-bench evaluieren wir eine Reihe von state-of-the-art Modellen mit drei repräsentativen Methoden (Agentless, SWE-agent und OpenHands) und präsentieren eine umfassende Analyse mit wichtigen empirischen Erkenntnissen. Zusätzlich starten wir die Multi-SWE-RL Open-Source-Community, die darauf abzielt, groß angelegte Reinforcement Learning (RL)-Trainingsdatensätze für Aufgaben der Problembehebung zu erstellen. Als ersten Beitrag veröffentlichen wir einen Satz von 4.723 gut strukturierten Instanzen, die sieben Programmiersprachen abdecken, und legen damit eine solide Grundlage für die RL-Forschung in diesem Bereich. Noch wichtiger ist, dass wir unsere gesamte Datenproduktionspipeline zusammen mit detaillierten Tutorials open-source bereitstellen, um die Open-Source-Community zu ermutigen, kontinuierlich beizutragen und den Datensatz zu erweitern. Wir sehen unseren Multi-SWE-bench und die stetig wachsende Multi-SWE-RL-Community als Katalysatoren, um RL weiter voranzutreiben und uns damit dem Anbruch der AGI (Artificial General Intelligence) einen Schritt näher zu bringen.
English
The task of issue resolving is to modify a codebase to generate a patch that
addresses a given issue. However, existing benchmarks, such as SWE-bench, focus
almost exclusively on Python, making them insufficient for evaluating Large
Language Models (LLMs) across diverse software ecosystems. To address this, we
introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench,
covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a
total of 1,632 high-quality instances, which were carefully annotated from
2,456 candidates by 68 expert annotators, ensuring that the benchmark can
provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we
evaluate a series of state-of-the-art models using three representative methods
(Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with
key empirical insights. In addition, we launch a Multi-SWE-RL open-source
community, aimed at building large-scale reinforcement learning (RL) training
datasets for issue-resolving tasks. As an initial contribution, we release a
set of 4,723 well-structured instances spanning seven programming languages,
laying a solid foundation for RL research in this domain. More importantly, we
open-source our entire data production pipeline, along with detailed tutorials,
encouraging the open-source community to continuously contribute and expand the
dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL
community as catalysts for advancing RL toward its full potential, bringing us
one step closer to the dawn of AGI.Summary
AI-Generated Summary