Multi-SWE-bench: Un punto de referencia multilingüe para la resolución de problemasMulti-SWE-bench: A Multilingual Benchmark for Issue Resolving
La tarea de resolución de problemas consiste en modificar una base de código para generar un parche que aborde un problema dado. Sin embargo, los benchmarks existentes, como SWE-bench, se centran casi exclusivamente en Python, lo que los hace insuficientes para evaluar Modelos de Lenguaje de Gran Escala (LLMs) en diversos ecosistemas de software. Para abordar esto, presentamos un benchmark multilingüe de resolución de problemas, llamado Multi-SWE-bench, que cubre Java, TypeScript, JavaScript, Go, Rust, C y C++. Incluye un total de 1,632 instancias de alta calidad, cuidadosamente anotadas a partir de 2,456 candidatos por 68 anotadores expertos, asegurando que el benchmark pueda proporcionar una evaluación precisa y confiable. Basándonos en Multi-SWE-bench, evaluamos una serie de modelos de última generación utilizando tres métodos representativos (Agentless, SWE-agent y OpenHands) y presentamos un análisis exhaustivo con conclusiones empíricas clave. Además, lanzamos una comunidad de código abierto llamada Multi-SWE-RL, destinada a construir conjuntos de datos de entrenamiento a gran escala para tareas de resolución de problemas mediante aprendizaje por refuerzo (RL). Como contribución inicial, publicamos un conjunto de 4,723 instancias bien estructuradas que abarcan siete lenguajes de programación, sentando una base sólida para la investigación en RL en este dominio. Más importante aún, liberamos toda nuestra pipeline de producción de datos, junto con tutoriales detallados, fomentando que la comunidad de código abierto contribuya y expanda continuamente el conjunto de datos. Visualizamos nuestro Multi-SWE-bench y la creciente comunidad Multi-SWE-RL como catalizadores para avanzar hacia el pleno potencial del RL, acercándonos un paso más al amanecer de la AGI.