Multi-SWE-bench: Um Benchmark Multilíngue para Resolução de Problemas
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
April 3, 2025
Autores: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang
cs.AI
Resumo
A tarefa de resolução de problemas consiste em modificar uma base de código para gerar um patch que solucione um determinado problema. No entanto, benchmarks existentes, como o SWE-bench, focam quase exclusivamente em Python, tornando-os insuficientes para avaliar Modelos de Linguagem de Grande Escala (LLMs) em ecossistemas de software diversos. Para abordar essa limitação, introduzimos um benchmark multilíngue para resolução de problemas, chamado Multi-SWE-bench, que abrange Java, TypeScript, JavaScript, Go, Rust, C e C++. Ele inclui um total de 1.632 instâncias de alta qualidade, cuidadosamente anotadas a partir de 2.456 candidatos por 68 anotadores especialistas, garantindo que o benchmark possa fornecer uma avaliação precisa e confiável. Com base no Multi-SWE-bench, avaliamos uma série de modelos state-of-the-art utilizando três métodos representativos (Agentless, SWE-agent e OpenHands) e apresentamos uma análise abrangente com insights empíricos fundamentais. Além disso, lançamos a comunidade open-source Multi-SWE-RL, com o objetivo de construir conjuntos de dados de treinamento em larga escala para tarefas de resolução de problemas usando aprendizado por reforço (RL). Como uma contribuição inicial, disponibilizamos um conjunto de 4.723 instâncias bem estruturadas, abrangendo sete linguagens de programação, estabelecendo uma base sólida para pesquisas em RL nesse domínio. Mais importante ainda, disponibilizamos todo o nosso pipeline de produção de dados, juntamente com tutoriais detalhados, incentivando a comunidade open-source a contribuir e expandir continuamente o conjunto de dados. Enxergamos o Multi-SWE-bench e a crescente comunidade Multi-SWE-RL como catalisadores para avançar o RL em direção ao seu pleno potencial, nos aproximando cada vez mais do alvorecer da AGI.
English
The task of issue resolving is to modify a codebase to generate a patch that
addresses a given issue. However, existing benchmarks, such as SWE-bench, focus
almost exclusively on Python, making them insufficient for evaluating Large
Language Models (LLMs) across diverse software ecosystems. To address this, we
introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench,
covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a
total of 1,632 high-quality instances, which were carefully annotated from
2,456 candidates by 68 expert annotators, ensuring that the benchmark can
provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we
evaluate a series of state-of-the-art models using three representative methods
(Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with
key empirical insights. In addition, we launch a Multi-SWE-RL open-source
community, aimed at building large-scale reinforcement learning (RL) training
datasets for issue-resolving tasks. As an initial contribution, we release a
set of 4,723 well-structured instances spanning seven programming languages,
laying a solid foundation for RL research in this domain. More importantly, we
open-source our entire data production pipeline, along with detailed tutorials,
encouraging the open-source community to continuously contribute and expand the
dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL
community as catalysts for advancing RL toward its full potential, bringing us
one step closer to the dawn of AGI.Summary
AI-Generated Summary