Multi-SWE-bench: Un punto de referencia multilingüe para la resolución de problemas
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
April 3, 2025
Autores: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang
cs.AI
Resumen
La tarea de resolución de problemas consiste en modificar una base de código para generar un parche que aborde un problema dado. Sin embargo, los benchmarks existentes, como SWE-bench, se centran casi exclusivamente en Python, lo que los hace insuficientes para evaluar Modelos de Lenguaje de Gran Escala (LLMs) en diversos ecosistemas de software. Para abordar esto, presentamos un benchmark multilingüe de resolución de problemas, llamado Multi-SWE-bench, que cubre Java, TypeScript, JavaScript, Go, Rust, C y C++. Incluye un total de 1,632 instancias de alta calidad, cuidadosamente anotadas a partir de 2,456 candidatos por 68 anotadores expertos, asegurando que el benchmark pueda proporcionar una evaluación precisa y confiable. Basándonos en Multi-SWE-bench, evaluamos una serie de modelos de última generación utilizando tres métodos representativos (Agentless, SWE-agent y OpenHands) y presentamos un análisis exhaustivo con conclusiones empíricas clave. Además, lanzamos una comunidad de código abierto llamada Multi-SWE-RL, destinada a construir conjuntos de datos de entrenamiento a gran escala para tareas de resolución de problemas mediante aprendizaje por refuerzo (RL). Como contribución inicial, publicamos un conjunto de 4,723 instancias bien estructuradas que abarcan siete lenguajes de programación, sentando una base sólida para la investigación en RL en este dominio. Más importante aún, liberamos toda nuestra pipeline de producción de datos, junto con tutoriales detallados, fomentando que la comunidad de código abierto contribuya y expanda continuamente el conjunto de datos. Visualizamos nuestro Multi-SWE-bench y la creciente comunidad Multi-SWE-RL como catalizadores para avanzar hacia el pleno potencial del RL, acercándonos un paso más al amanecer de la AGI.
English
The task of issue resolving is to modify a codebase to generate a patch that
addresses a given issue. However, existing benchmarks, such as SWE-bench, focus
almost exclusively on Python, making them insufficient for evaluating Large
Language Models (LLMs) across diverse software ecosystems. To address this, we
introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench,
covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a
total of 1,632 high-quality instances, which were carefully annotated from
2,456 candidates by 68 expert annotators, ensuring that the benchmark can
provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we
evaluate a series of state-of-the-art models using three representative methods
(Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with
key empirical insights. In addition, we launch a Multi-SWE-RL open-source
community, aimed at building large-scale reinforcement learning (RL) training
datasets for issue-resolving tasks. As an initial contribution, we release a
set of 4,723 well-structured instances spanning seven programming languages,
laying a solid foundation for RL research in this domain. More importantly, we
open-source our entire data production pipeline, along with detailed tutorials,
encouraging the open-source community to continuously contribute and expand the
dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL
community as catalysts for advancing RL toward its full potential, bringing us
one step closer to the dawn of AGI.Summary
AI-Generated Summary