SWE-Bench-Java: Ein GitHub-Problembehandlungs-Benchmark für Java
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java
August 26, 2024
Autoren: Daoguang Zan, Zhirong Huang, Ailun Yu, Shaoxin Lin, Yifan Shi, Wei Liu, Dong Chen, Zongshuai Qi, Hao Yu, Lei Yu, Dezhi Ran, Muhan Zeng, Bo Shen, Pan Bian, Guangtai Liang, Bei Guan, Pengjie Huang, Tao Xie, Yongji Wang, Qianxiang Wang
cs.AI
Zusammenfassung
Die Behebung von GitHub-Problemen ist eine kritische Aufgabe im Software Engineering, die in letzter Zeit sowohl in der Industrie als auch in der akademischen Welt erhebliche Aufmerksamkeit erhalten hat. Im Rahmen dieser Aufgabe wurde SWE-bench veröffentlicht, um die Problemlösungsfähigkeiten großer Sprachmodelle (LLMs) zu bewerten, jedoch lag der Fokus bisher nur auf der Python-Version. Die Unterstützung weiterer Programmiersprachen ist jedoch ebenfalls wichtig, da die Industrie einen starken Bedarf hat. Als ersten Schritt zur Unterstützung mehrerer Sprachen haben wir eine Java-Version von SWE-bench entwickelt, genannt SWE-bench-java. Wir haben den Datensatz öffentlich zugänglich gemacht, zusammen mit der entsprechenden Docker-basierten Evaluierungsumgebung und Bestenliste, die in den kommenden Monaten kontinuierlich gewartet und aktualisiert wird. Zur Überprüfung der Zuverlässigkeit von SWE-bench-java implementieren wir eine klassische Methode SWE-agent und testen mehrere leistungsstarke LLMs darauf. Wie bekannt ist, ist die Entwicklung eines hochwertigen mehrsprachigen Benchmarks zeitaufwändig und arbeitsintensiv, daher begrüßen wir Beiträge durch Pull-Anfragen oder Zusammenarbeit, um die Iteration und Verfeinerung zu beschleunigen und den Weg für vollautomatisches Programmieren zu ebnen.
English
GitHub issue resolving is a critical task in software engineering, recently
gaining significant attention in both industry and academia. Within this task,
SWE-bench has been released to evaluate issue resolving capabilities of large
language models (LLMs), but has so far only focused on Python version. However,
supporting more programming languages is also important, as there is a strong
demand in industry. As a first step toward multilingual support, we have
developed a Java version of SWE-bench, called SWE-bench-java. We have publicly
released the dataset, along with the corresponding Docker-based evaluation
environment and leaderboard, which will be continuously maintained and updated
in the coming months. To verify the reliability of SWE-bench-java, we implement
a classic method SWE-agent and test several powerful LLMs on it. As is well
known, developing a high-quality multi-lingual benchmark is time-consuming and
labor-intensive, so we welcome contributions through pull requests or
collaboration to accelerate its iteration and refinement, paving the way for
fully automated programming.Summary
AI-Generated Summary