SWE-bench-java : Un banc d'essai de résolution de problèmes GitHub pour Java
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java
August 26, 2024
Auteurs: Daoguang Zan, Zhirong Huang, Ailun Yu, Shaoxin Lin, Yifan Shi, Wei Liu, Dong Chen, Zongshuai Qi, Hao Yu, Lei Yu, Dezhi Ran, Muhan Zeng, Bo Shen, Pan Bian, Guangtai Liang, Bei Guan, Pengjie Huang, Tao Xie, Yongji Wang, Qianxiang Wang
cs.AI
Résumé
La résolution des problèmes GitHub est une tâche critique en génie logiciel, attirant récemment une attention significative tant dans l'industrie que dans le milieu universitaire. Dans le cadre de cette tâche, SWE-bench a été publié pour évaluer les capacités de résolution de problèmes des grands modèles de langage (LLM), mais s'est jusqu'à présent concentré uniquement sur la version Python. Cependant, le support de plus de langages de programmation est également important, car il existe une forte demande dans l'industrie. En tant que première étape vers un support multilingue, nous avons développé une version Java de SWE-bench, appelée SWE-bench-java. Nous avons publié publiquement l'ensemble de données, ainsi que l'environnement d'évaluation basé sur Docker correspondant et le classement, qui seront continuellement entretenus et mis à jour dans les mois à venir. Pour vérifier la fiabilité de SWE-bench-java, nous mettons en œuvre une méthode classique SWE-agent et testons plusieurs LLM puissants dessus. Comme il est bien connu, le développement d'un banc d'essai multilingue de haute qualité est chronophage et intensif en main-d'œuvre, nous accueillons donc les contributions via des demandes de tirage ou des collaborations pour accélérer son itération et son affinement, ouvrant la voie à la programmation entièrement automatisée.
English
GitHub issue resolving is a critical task in software engineering, recently
gaining significant attention in both industry and academia. Within this task,
SWE-bench has been released to evaluate issue resolving capabilities of large
language models (LLMs), but has so far only focused on Python version. However,
supporting more programming languages is also important, as there is a strong
demand in industry. As a first step toward multilingual support, we have
developed a Java version of SWE-bench, called SWE-bench-java. We have publicly
released the dataset, along with the corresponding Docker-based evaluation
environment and leaderboard, which will be continuously maintained and updated
in the coming months. To verify the reliability of SWE-bench-java, we implement
a classic method SWE-agent and test several powerful LLMs on it. As is well
known, developing a high-quality multi-lingual benchmark is time-consuming and
labor-intensive, so we welcome contributions through pull requests or
collaboration to accelerate its iteration and refinement, paving the way for
fully automated programming.Summary
AI-Generated Summary