SWE-bench-java: Um Benchmark de Resolução de Problemas do GitHub para Java

Resumo

A resolução de problemas do GitHub é uma tarefa crítica na engenharia de software, ganhando recentemente significativa atenção tanto na indústria quanto na academia. Dentro dessa tarefa, o SWE-bench foi lançado para avaliar as capacidades de resolução de problemas de grandes modelos de linguagem (LLMs), mas até agora só se concentrou na versão Python. No entanto, o suporte a mais linguagens de programação também é importante, pois há uma forte demanda na indústria. Como primeiro passo em direção ao suporte multilíngue, desenvolvemos uma versão Java do SWE-bench, chamada SWE-bench-java. Lançamos publicamente o conjunto de dados, juntamente com o ambiente de avaliação baseado em Docker correspondente e a tabela de classificação, que serão continuamente mantidos e atualizados nos próximos meses. Para verificar a confiabilidade do SWE-bench-java, implementamos um método clássico SWE-agent e testamos vários LLMs poderosos nele. Como é bem sabido, desenvolver um benchmark multilíngue de alta qualidade é demorado e intensivo em mão de obra, então damos as boas-vindas a contribuições por meio de pull requests ou colaboração para acelerar sua iteração e refinamento, abrindo caminho para a programação totalmente automatizada.

English

GitHub issue resolving is a critical task in software engineering, recently gaining significant attention in both industry and academia. Within this task, SWE-bench has been released to evaluate issue resolving capabilities of large language models (LLMs), but has so far only focused on Python version. However, supporting more programming languages is also important, as there is a strong demand in industry. As a first step toward multilingual support, we have developed a Java version of SWE-bench, called SWE-bench-java. We have publicly released the dataset, along with the corresponding Docker-based evaluation environment and leaderboard, which will be continuously maintained and updated in the coming months. To verify the reliability of SWE-bench-java, we implement a classic method SWE-agent and test several powerful LLMs on it. As is well known, developing a high-quality multi-lingual benchmark is time-consuming and labor-intensive, so we welcome contributions through pull requests or collaboration to accelerate its iteration and refinement, paving the way for fully automated programming.

SWE-bench-java: Um Benchmark de Resolução de Problemas do GitHub para Java

SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

Resumo

Support