Multi-SWE-bench : Un benchmark multilingue pour la résolution de problèmes
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
April 3, 2025
Auteurs: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang
cs.AI
Résumé
La tâche de résolution de problèmes consiste à modifier une base de code pour générer un correctif qui traite un problème donné. Cependant, les benchmarks existants, tels que SWE-bench, se concentrent presque exclusivement sur Python, ce qui les rend insuffisants pour évaluer les modèles de langage de grande taille (LLMs) dans des écosystèmes logiciels diversifiés. Pour remédier à cela, nous introduisons un benchmark multilingue de résolution de problèmes, appelé Multi-SWE-bench, couvrant Java, TypeScript, JavaScript, Go, Rust, C et C++. Il comprend un total de 1 632 instances de haute qualité, soigneusement annotées à partir de 2 456 candidats par 68 annotateurs experts, garantissant que le benchmark peut fournir une évaluation précise et fiable. Sur la base de Multi-SWE-bench, nous évaluons une série de modèles de pointe en utilisant trois méthodes représentatives (Agentless, SWE-agent et OpenHands) et présentons une analyse complète avec des insights empiriques clés. En outre, nous lançons une communauté open-source Multi-SWE-RL, visant à construire des ensembles de données d'entraînement à grande échelle pour l'apprentissage par renforcement (RL) dans les tâches de résolution de problèmes. En tant que contribution initiale, nous publions un ensemble de 4 723 instances bien structurées couvrant sept langages de programmation, posant une base solide pour la recherche en RL dans ce domaine. Plus important encore, nous ouvrons l'ensemble de notre pipeline de production de données, accompagné de tutoriels détaillés, encourageant la communauté open-source à contribuer continuellement et à étendre l'ensemble de données. Nous envisageons notre Multi-SWE-bench et la communauté en pleine croissance de Multi-SWE-RL comme des catalyseurs pour faire progresser le RL vers son plein potentiel, nous rapprochant ainsi un peu plus de l'aube de l'AGI.
English
The task of issue resolving is to modify a codebase to generate a patch that
addresses a given issue. However, existing benchmarks, such as SWE-bench, focus
almost exclusively on Python, making them insufficient for evaluating Large
Language Models (LLMs) across diverse software ecosystems. To address this, we
introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench,
covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a
total of 1,632 high-quality instances, which were carefully annotated from
2,456 candidates by 68 expert annotators, ensuring that the benchmark can
provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we
evaluate a series of state-of-the-art models using three representative methods
(Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with
key empirical insights. In addition, we launch a Multi-SWE-RL open-source
community, aimed at building large-scale reinforcement learning (RL) training
datasets for issue-resolving tasks. As an initial contribution, we release a
set of 4,723 well-structured instances spanning seven programming languages,
laying a solid foundation for RL research in this domain. More importantly, we
open-source our entire data production pipeline, along with detailed tutorials,
encouraging the open-source community to continuously contribute and expand the
dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL
community as catalysts for advancing RL toward its full potential, bringing us
one step closer to the dawn of AGI.Summary
AI-Generated Summary