MIGRATION-BENCH: Benchmark per la Migrazione del Codice a Livello di Repository da Java 8

Abstract

Con il rapido progresso dei potenti modelli linguistici su larga scala (LLM) negli ultimi anni, un'ampia gamma di attività di ingegneria del software può ora essere affrontata utilizzando gli LLM, migliorando significativamente la produttività e la scalabilità. Numerosi dataset di benchmark sono stati sviluppati per valutare le capacità di codifica di questi modelli, sebbene si concentrino principalmente su attività di risoluzione di problemi e questioni. Al contrario, introduciamo un nuovo benchmark di codifica, MIGRATION-BENCH, con un focus distinto: la migrazione del codice. MIGRATION-BENCH mira a servire come benchmark completo per la migrazione da Java 8 alle ultime versioni di supporto a lungo termine (LTS) (Java 17, 21), includendo un dataset completo e un suo sottoinsieme selezionato con 5.102 e 300 repository rispettivamente. Il sottoinsieme selezionato è rappresentativo e curato per complessità e difficoltà, offrendo una risorsa versatile per supportare la ricerca nel campo della migrazione del codice. Inoltre, forniamo un framework di valutazione completo per facilitare una valutazione rigorosa e standardizzata degli LLM su questo compito impegnativo. Proponiamo ulteriormente SD-Feedback e dimostriamo che gli LLM possono affrontare efficacemente la migrazione del codice a livello di repository verso Java 17. Per il sottoinsieme selezionato con Claude-3.5-Sonnet-v2, SD-Feedback raggiunge un tasso di successo (pass@1) del 62,33% e del 27,00% rispettivamente per la migrazione minima e massima. Il dataset di benchmark e il codice sorgente sono disponibili su: https://huggingface.co/collections/AmazonScience e https://github.com/amazon-science/self_debug rispettivamente.

English

With the rapid advancement of powerful large language models (LLMs) in recent years, a wide range of software engineering tasks can now be addressed using LLMs, significantly enhancing productivity and scalability. Numerous benchmark datasets have been developed to evaluate the coding capabilities of these models, while they primarily focus on problem-solving and issue-resolution tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a distinct focus: code migration. MIGRATION-BENCH aims to serve as a comprehensive benchmark for migration from Java 8 to the latest long-term support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset and its subset selected with 5,102 and 300 repositories respectively. Selected is a representative subset curated for complexity and difficulty, offering a versatile resource to support research in the field of code migration. Additionally, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively tackle repository-level code migration to Java 17. For the selected subset with Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate (pass@1) for minimal and maximal migration respectively. The benchmark dataset and source code are available at: https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug respectively.

MIGRATION-BENCH: Benchmark per la Migrazione del Codice a Livello di Repository da Java 8

MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8

Abstract

Support