ChatPaper.aiChatPaper

SWE-bench-java: Java向けのGitHub課題解決ベンチマーク

SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

August 26, 2024
著者: Daoguang Zan, Zhirong Huang, Ailun Yu, Shaoxin Lin, Yifan Shi, Wei Liu, Dong Chen, Zongshuai Qi, Hao Yu, Lei Yu, Dezhi Ran, Muhan Zeng, Bo Shen, Pan Bian, Guangtai Liang, Bei Guan, Pengjie Huang, Tao Xie, Yongji Wang, Qianxiang Wang
cs.AI

要旨

GitHubの課題解決はソフトウェアエンジニアリングにおける重要なタスクであり、最近では産業界と学術界の両方で注目を集めています。このタスクにおいて、SWE-benchは大規模言語モデル(LLMs)の課題解決能力を評価するためにリリースされましたが、これまでPythonバージョンに焦点を当ててきました。しかしながら、他のプログラミング言語のサポートも重要であり、産業界に強い需要があります。多言語サポートに向けた第一歩として、私たちはSWE-benchのJavaバージョンであるSWE-bench-javaを開発しました。私たちはデータセットを公開し、それに対応するDockerベースの評価環境とリーダーボードも公開しました。これらは今後も継続的にメンテナンスおよび更新されます。SWE-bench-javaの信頼性を検証するために、古典的な手法であるSWE-agentを実装し、いくつかの強力なLLMsをテストしました。高品質な多言語ベンチマークを開発することは時間と労力がかかることがよく知られていますので、私たちはプルリクエストやコラボレーションを通じて貢献を歓迎し、その繰り返しと改善を加速させ、完全に自動化されたプログラミングへの道を開いていきます。
English
GitHub issue resolving is a critical task in software engineering, recently gaining significant attention in both industry and academia. Within this task, SWE-bench has been released to evaluate issue resolving capabilities of large language models (LLMs), but has so far only focused on Python version. However, supporting more programming languages is also important, as there is a strong demand in industry. As a first step toward multilingual support, we have developed a Java version of SWE-bench, called SWE-bench-java. We have publicly released the dataset, along with the corresponding Docker-based evaluation environment and leaderboard, which will be continuously maintained and updated in the coming months. To verify the reliability of SWE-bench-java, we implement a classic method SWE-agent and test several powerful LLMs on it. As is well known, developing a high-quality multi-lingual benchmark is time-consuming and labor-intensive, so we welcome contributions through pull requests or collaboration to accelerate its iteration and refinement, paving the way for fully automated programming.

Summary

AI-Generated Summary

PDF422November 16, 2024