SWE-bench-java: Un conjunto de pruebas para resolver problemas de GitHub para Java
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java
August 26, 2024
Autores: Daoguang Zan, Zhirong Huang, Ailun Yu, Shaoxin Lin, Yifan Shi, Wei Liu, Dong Chen, Zongshuai Qi, Hao Yu, Lei Yu, Dezhi Ran, Muhan Zeng, Bo Shen, Pan Bian, Guangtai Liang, Bei Guan, Pengjie Huang, Tao Xie, Yongji Wang, Qianxiang Wang
cs.AI
Resumen
La resolución de problemas en los problemas de GitHub es una tarea crítica en la ingeniería de software, que recientemente ha ganado una atención significativa tanto en la industria como en la academia. Dentro de esta tarea, SWE-bench ha sido lanzado para evaluar las capacidades de resolución de problemas de grandes modelos de lenguaje (LLMs), pero hasta ahora solo se ha centrado en la versión de Python. Sin embargo, es importante también ofrecer soporte para más lenguajes de programación, ya que hay una fuerte demanda en la industria. Como primer paso hacia el soporte multilingüe, hemos desarrollado una versión en Java de SWE-bench, llamada SWE-bench-java. Hemos publicado el conjunto de datos, junto con el entorno de evaluación basado en Docker correspondiente y la tabla de clasificación, que se mantendrán y actualizarán continuamente en los próximos meses. Para verificar la fiabilidad de SWE-bench-java, implementamos un método clásico SWE-agent y probamos varios LLMs potentes en él. Como es bien sabido, desarrollar un benchmark multilingüe de alta calidad es un proceso que consume tiempo y requiere mucho trabajo, por lo que agradecemos las contribuciones a través de solicitudes de extracción o colaboración para acelerar su iteración y perfeccionamiento, allanando el camino hacia la programación completamente automatizada.
English
GitHub issue resolving is a critical task in software engineering, recently
gaining significant attention in both industry and academia. Within this task,
SWE-bench has been released to evaluate issue resolving capabilities of large
language models (LLMs), but has so far only focused on Python version. However,
supporting more programming languages is also important, as there is a strong
demand in industry. As a first step toward multilingual support, we have
developed a Java version of SWE-bench, called SWE-bench-java. We have publicly
released the dataset, along with the corresponding Docker-based evaluation
environment and leaderboard, which will be continuously maintained and updated
in the coming months. To verify the reliability of SWE-bench-java, we implement
a classic method SWE-agent and test several powerful LLMs on it. As is well
known, developing a high-quality multi-lingual benchmark is time-consuming and
labor-intensive, so we welcome contributions through pull requests or
collaboration to accelerate its iteration and refinement, paving the way for
fully automated programming.Summary
AI-Generated Summary