Multi-SWE-bench: Un punto de referencia multilingüe para la resolución de problemas

Resumen

La tarea de resolución de problemas consiste en modificar una base de código para generar un parche que aborde un problema dado. Sin embargo, los benchmarks existentes, como SWE-bench, se centran casi exclusivamente en Python, lo que los hace insuficientes para evaluar Modelos de Lenguaje de Gran Escala (LLMs) en diversos ecosistemas de software. Para abordar esto, presentamos un benchmark multilingüe de resolución de problemas, llamado Multi-SWE-bench, que cubre Java, TypeScript, JavaScript, Go, Rust, C y C++. Incluye un total de 1,632 instancias de alta calidad, cuidadosamente anotadas a partir de 2,456 candidatos por 68 anotadores expertos, asegurando que el benchmark pueda proporcionar una evaluación precisa y confiable. Basándonos en Multi-SWE-bench, evaluamos una serie de modelos de última generación utilizando tres métodos representativos (Agentless, SWE-agent y OpenHands) y presentamos un análisis exhaustivo con conclusiones empíricas clave. Además, lanzamos una comunidad de código abierto llamada Multi-SWE-RL, destinada a construir conjuntos de datos de entrenamiento a gran escala para tareas de resolución de problemas mediante aprendizaje por refuerzo (RL). Como contribución inicial, publicamos un conjunto de 4,723 instancias bien estructuradas que abarcan siete lenguajes de programación, sentando una base sólida para la investigación en RL en este dominio. Más importante aún, liberamos toda nuestra pipeline de producción de datos, junto con tutoriales detallados, fomentando que la comunidad de código abierto contribuya y expanda continuamente el conjunto de datos. Visualizamos nuestro Multi-SWE-bench y la creciente comunidad Multi-SWE-RL como catalizadores para avanzar hacia el pleno potencial del RL, acercándonos un paso más al amanecer de la AGI.

English

The task of issue resolving is to modify a codebase to generate a patch that addresses a given issue. However, existing benchmarks, such as SWE-bench, focus almost exclusively on Python, making them insufficient for evaluating Large Language Models (LLMs) across diverse software ecosystems. To address this, we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a total of 1,632 high-quality instances, which were carefully annotated from 2,456 candidates by 68 expert annotators, ensuring that the benchmark can provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we evaluate a series of state-of-the-art models using three representative methods (Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with key empirical insights. In addition, we launch a Multi-SWE-RL open-source community, aimed at building large-scale reinforcement learning (RL) training datasets for issue-resolving tasks. As an initial contribution, we release a set of 4,723 well-structured instances spanning seven programming languages, laying a solid foundation for RL research in this domain. More importantly, we open-source our entire data production pipeline, along with detailed tutorials, encouraging the open-source community to continuously contribute and expand the dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL community as catalysts for advancing RL toward its full potential, bringing us one step closer to the dawn of AGI.

Multi-SWE-bench: Un punto de referencia multilingüe para la resolución de problemas

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

Resumen

Support