Multi-SWE-bench : Un benchmark multilingue pour la résolution de problèmesMulti-SWE-bench: A Multilingual Benchmark for Issue Resolving
La tâche de résolution de problèmes consiste à modifier une base de code pour générer un correctif qui traite un problème donné. Cependant, les benchmarks existants, tels que SWE-bench, se concentrent presque exclusivement sur Python, ce qui les rend insuffisants pour évaluer les modèles de langage de grande taille (LLMs) dans des écosystèmes logiciels diversifiés. Pour remédier à cela, nous introduisons un benchmark multilingue de résolution de problèmes, appelé Multi-SWE-bench, couvrant Java, TypeScript, JavaScript, Go, Rust, C et C++. Il comprend un total de 1 632 instances de haute qualité, soigneusement annotées à partir de 2 456 candidats par 68 annotateurs experts, garantissant que le benchmark peut fournir une évaluation précise et fiable. Sur la base de Multi-SWE-bench, nous évaluons une série de modèles de pointe en utilisant trois méthodes représentatives (Agentless, SWE-agent et OpenHands) et présentons une analyse complète avec des insights empiriques clés. En outre, nous lançons une communauté open-source Multi-SWE-RL, visant à construire des ensembles de données d'entraînement à grande échelle pour l'apprentissage par renforcement (RL) dans les tâches de résolution de problèmes. En tant que contribution initiale, nous publions un ensemble de 4 723 instances bien structurées couvrant sept langages de programmation, posant une base solide pour la recherche en RL dans ce domaine. Plus important encore, nous ouvrons l'ensemble de notre pipeline de production de données, accompagné de tutoriels détaillés, encourageant la communauté open-source à contribuer continuellement et à étendre l'ensemble de données. Nous envisageons notre Multi-SWE-bench et la communauté en pleine croissance de Multi-SWE-RL comme des catalyseurs pour faire progresser le RL vers son plein potentiel, nous rapprochant ainsi un peu plus de l'aube de l'AGI.