Multi-SWE-bench: Een meertalige benchmark voor het oplossen van problemenMulti-SWE-bench: A Multilingual Benchmark for Issue Resolving
De taak van probleemoplossing is het aanpassen van een codebase om een patch te genereren die een gegeven probleem aanpakt. Bestaande benchmarks, zoals SWE-bench, richten zich echter bijna uitsluitend op Python, waardoor ze onvoldoende zijn voor het evalueren van Large Language Models (LLMs) in diverse software-ecosystemen. Om dit aan te pakken, introduceren we een meertalige benchmark voor probleemoplossing, genaamd Multi-SWE-bench, die Java, TypeScript, JavaScript, Go, Rust, C en C++ omvat. Het bevat in totaal 1.632 hoogwaardige instanties, die zorgvuldig zijn geannoteerd uit 2.456 kandidaten door 68 expert-annotators, waardoor de benchmark een nauwkeurige en betrouwbare evaluatie kan bieden. Op basis van Multi-SWE-bench evalueren we een reeks state-of-the-art modellen met behulp van drie representatieve methoden (Agentless, SWE-agent en OpenHands) en presenteren we een uitgebreide analyse met belangrijke empirische inzichten. Daarnaast lanceren we een Multi-SWE-RL open-source gemeenschap, gericht op het bouwen van grootschalige reinforcement learning (RL) trainingsdatasets voor taken op het gebied van probleemoplossing. Als eerste bijdrage geven we een set van 4.723 goed gestructureerde instanties vrij, die zeven programmeertalen omvatten, wat een solide basis legt voor RL-onderzoek in dit domein. Belangrijker nog, we open-sourcen onze volledige dataproductiepipeline, samen met gedetailleerde tutorials, om de open-source gemeenschap aan te moedigen continu bij te dragen en de dataset uit te breiden. We zien onze Multi-SWE-bench en de steeds groeiende Multi-SWE-RL gemeenschap als katalysatoren voor het benutten van het volledige potentieel van RL, waardoor we een stap dichter komen bij het aanbreken van AGI.