ChatPaper.aiChatPaper

Multi-SWE-bench: Een meertalige benchmark voor het oplossen van problemen

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

April 3, 2025
Auteurs: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang
cs.AI

Samenvatting

De taak van probleemoplossing is het aanpassen van een codebase om een patch te genereren die een gegeven probleem aanpakt. Bestaande benchmarks, zoals SWE-bench, richten zich echter bijna uitsluitend op Python, waardoor ze onvoldoende zijn voor het evalueren van Large Language Models (LLMs) in diverse software-ecosystemen. Om dit aan te pakken, introduceren we een meertalige benchmark voor probleemoplossing, genaamd Multi-SWE-bench, die Java, TypeScript, JavaScript, Go, Rust, C en C++ omvat. Het bevat in totaal 1.632 hoogwaardige instanties, die zorgvuldig zijn geannoteerd uit 2.456 kandidaten door 68 expert-annotators, waardoor de benchmark een nauwkeurige en betrouwbare evaluatie kan bieden. Op basis van Multi-SWE-bench evalueren we een reeks state-of-the-art modellen met behulp van drie representatieve methoden (Agentless, SWE-agent en OpenHands) en presenteren we een uitgebreide analyse met belangrijke empirische inzichten. Daarnaast lanceren we een Multi-SWE-RL open-source gemeenschap, gericht op het bouwen van grootschalige reinforcement learning (RL) trainingsdatasets voor taken op het gebied van probleemoplossing. Als eerste bijdrage geven we een set van 4.723 goed gestructureerde instanties vrij, die zeven programmeertalen omvatten, wat een solide basis legt voor RL-onderzoek in dit domein. Belangrijker nog, we open-sourcen onze volledige dataproductiepipeline, samen met gedetailleerde tutorials, om de open-source gemeenschap aan te moedigen continu bij te dragen en de dataset uit te breiden. We zien onze Multi-SWE-bench en de steeds groeiende Multi-SWE-RL gemeenschap als katalysatoren voor het benutten van het volledige potentieel van RL, waardoor we een stap dichter komen bij het aanbreken van AGI.
English
The task of issue resolving is to modify a codebase to generate a patch that addresses a given issue. However, existing benchmarks, such as SWE-bench, focus almost exclusively on Python, making them insufficient for evaluating Large Language Models (LLMs) across diverse software ecosystems. To address this, we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a total of 1,632 high-quality instances, which were carefully annotated from 2,456 candidates by 68 expert annotators, ensuring that the benchmark can provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we evaluate a series of state-of-the-art models using three representative methods (Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with key empirical insights. In addition, we launch a Multi-SWE-RL open-source community, aimed at building large-scale reinforcement learning (RL) training datasets for issue-resolving tasks. As an initial contribution, we release a set of 4,723 well-structured instances spanning seven programming languages, laying a solid foundation for RL research in this domain. More importantly, we open-source our entire data production pipeline, along with detailed tutorials, encouraging the open-source community to continuously contribute and expand the dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL community as catalysts for advancing RL toward its full potential, bringing us one step closer to the dawn of AGI.

Summary

AI-Generated Summary

PDF453April 7, 2025