SWE-bench-java: Een GitHub Issue Oplossingsbenchmark voor Java
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java
August 26, 2024
Auteurs: Daoguang Zan, Zhirong Huang, Ailun Yu, Shaoxin Lin, Yifan Shi, Wei Liu, Dong Chen, Zongshuai Qi, Hao Yu, Lei Yu, Dezhi Ran, Muhan Zeng, Bo Shen, Pan Bian, Guangtai Liang, Bei Guan, Pengjie Huang, Tao Xie, Yongji Wang, Qianxiang Wang
cs.AI
Samenvatting
Het oplossen van GitHub-issues is een cruciale taak in software engineering, die recentelijk veel aandacht heeft gekregen in zowel de industrie als de academische wereld. Binnen deze taak is SWE-bench ontwikkeld om de mogelijkheden van grote taalmodellen (LLMs) voor het oplossen van issues te evalueren, maar tot nu toe lag de focus alleen op Python. Het ondersteunen van meer programmeertalen is echter ook belangrijk, aangezien hier een sterke vraag naar is in de industrie. Als eerste stap naar meertalige ondersteuning hebben we een Java-versie van SWE-bench ontwikkeld, genaamd SWE-bench-java. We hebben de dataset openbaar gemaakt, samen met de bijbehorende Docker-gebaseerde evaluatieomgeving en een leaderboard, die de komende maanden continu worden onderhouden en bijgewerkt. Om de betrouwbaarheid van SWE-bench-java te verifiëren, implementeren we een klassieke methode, SWE-agent, en testen we verschillende krachtige LLMs hierop. Zoals bekend is het ontwikkelen van een hoogwaardige meertalige benchmark tijdrovend en arbeidsintensief, dus we verwelkomen bijdragen via pull requests of samenwerking om de iteratie en verfijning te versnellen, en zo de weg te effenen voor volledig geautomatiseerd programmeren.
English
GitHub issue resolving is a critical task in software engineering, recently
gaining significant attention in both industry and academia. Within this task,
SWE-bench has been released to evaluate issue resolving capabilities of large
language models (LLMs), but has so far only focused on Python version. However,
supporting more programming languages is also important, as there is a strong
demand in industry. As a first step toward multilingual support, we have
developed a Java version of SWE-bench, called SWE-bench-java. We have publicly
released the dataset, along with the corresponding Docker-based evaluation
environment and leaderboard, which will be continuously maintained and updated
in the coming months. To verify the reliability of SWE-bench-java, we implement
a classic method SWE-agent and test several powerful LLMs on it. As is well
known, developing a high-quality multi-lingual benchmark is time-consuming and
labor-intensive, so we welcome contributions through pull requests or
collaboration to accelerate its iteration and refinement, paving the way for
fully automated programming.Summary
AI-Generated Summary