SWE-bench-java: Набор данных для оценки решения задач GitHub для Java
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java
August 26, 2024
Авторы: Daoguang Zan, Zhirong Huang, Ailun Yu, Shaoxin Lin, Yifan Shi, Wei Liu, Dong Chen, Zongshuai Qi, Hao Yu, Lei Yu, Dezhi Ran, Muhan Zeng, Bo Shen, Pan Bian, Guangtai Liang, Bei Guan, Pengjie Huang, Tao Xie, Yongji Wang, Qianxiang Wang
cs.AI
Аннотация
Разрешение проблем GitHub - это критическая задача в программной инженерии, недавно
привлекающая значительное внимание как в индустрии, так и в академии. В рамках этой задачи
был выпущен SWE-bench для оценки способностей к разрешению проблем крупных
языковых моделей (LLM), но до сих пор он сосредоточен только на версии Python. Однако
поддержка большего количества языков программирования также важна, поскольку существует
большой спрос в индустрии. В качестве первого шага к поддержке многих языков мы
разработали Java-версию SWE-bench, названную SWE-bench-java. Мы публично
выпустили набор данных, вместе с соответствующей средой оценки на основе Docker и таблицей лидеров,
которая будет непрерывно поддерживаться и обновляться
в ближайшие месяцы. Чтобы проверить надежность SWE-bench-java, мы реализуем
классический метод SWE-agent и тестируем несколько мощных LLM на нем. Как известно,
разработка высококачественного многоязычного бенчмарка требует много времени и
трудозатрат, поэтому мы приветствуем вклад через запросы на слияние или
сотрудничество для ускорения его итерации и усовершенствования, открывая путь к
полностью автоматизированному программированию.
English
GitHub issue resolving is a critical task in software engineering, recently
gaining significant attention in both industry and academia. Within this task,
SWE-bench has been released to evaluate issue resolving capabilities of large
language models (LLMs), but has so far only focused on Python version. However,
supporting more programming languages is also important, as there is a strong
demand in industry. As a first step toward multilingual support, we have
developed a Java version of SWE-bench, called SWE-bench-java. We have publicly
released the dataset, along with the corresponding Docker-based evaluation
environment and leaderboard, which will be continuously maintained and updated
in the coming months. To verify the reliability of SWE-bench-java, we implement
a classic method SWE-agent and test several powerful LLMs on it. As is well
known, developing a high-quality multi-lingual benchmark is time-consuming and
labor-intensive, so we welcome contributions through pull requests or
collaboration to accelerate its iteration and refinement, paving the way for
fully automated programming.Summary
AI-Generated Summary