MIGRATION-BENCH: Punto de Referencia para la Migración de Código a Nivel de Repositorio desde Java 8

Resumen

Con el rápido avance de los potentes modelos de lenguaje de gran escala (LLMs) en los últimos años, una amplia gama de tareas de ingeniería de software puede ahora abordarse utilizando LLMs, mejorando significativamente la productividad y la escalabilidad. Se han desarrollado numerosos conjuntos de datos de referencia para evaluar las capacidades de codificación de estos modelos, aunque se centran principalmente en tareas de resolución de problemas y corrección de errores. En contraste, presentamos un nuevo punto de referencia de codificación, MIGRATION-BENCH, con un enfoque distinto: la migración de código. MIGRATION-BENCH tiene como objetivo servir como un punto de referencia integral para la migración desde Java 8 a las últimas versiones de soporte a largo plazo (LTS) (Java 17, 21). MIGRATION-BENCH incluye un conjunto de datos completo y un subconjunto seleccionado con 5,102 y 300 repositorios respectivamente. El subconjunto seleccionado es representativo y ha sido curado por su complejidad y dificultad, ofreciendo un recurso versátil para apoyar la investigación en el campo de la migración de código. Además, proporcionamos un marco de evaluación integral para facilitar una evaluación rigurosa y estandarizada de los LLMs en esta tarea desafiante. También proponemos SD-Feedback y demostramos que los LLMs pueden abordar eficazmente la migración de código a nivel de repositorio a Java 17. Para el subconjunto seleccionado con Claude-3.5-Sonnet-v2, SD-Feedback alcanza una tasa de éxito (pass@1) del 62.33% y 27.00% para la migración mínima y máxima respectivamente. El conjunto de datos de referencia y el código fuente están disponibles en: https://huggingface.co/collections/AmazonScience y https://github.com/amazon-science/self_debug respectivamente.

English

With the rapid advancement of powerful large language models (LLMs) in recent years, a wide range of software engineering tasks can now be addressed using LLMs, significantly enhancing productivity and scalability. Numerous benchmark datasets have been developed to evaluate the coding capabilities of these models, while they primarily focus on problem-solving and issue-resolution tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a distinct focus: code migration. MIGRATION-BENCH aims to serve as a comprehensive benchmark for migration from Java 8 to the latest long-term support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset and its subset selected with 5,102 and 300 repositories respectively. Selected is a representative subset curated for complexity and difficulty, offering a versatile resource to support research in the field of code migration. Additionally, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively tackle repository-level code migration to Java 17. For the selected subset with Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate (pass@1) for minimal and maximal migration respectively. The benchmark dataset and source code are available at: https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug respectively.

MIGRATION-BENCH: Punto de Referencia para la Migración de Código a Nivel de Repositorio desde Java 8

MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8

Resumen

Support