MIGRATION-BENCH: Repository-Level Code Migratie Benchmark van Java 8

Samenvatting

Met de snelle vooruitgang van krachtige grote taalmodellen (LLM's) in de afgelopen jaren, kan nu een breed scala aan software-engineeringtaken worden aangepakt met behulp van LLM's, wat de productiviteit en schaalbaarheid aanzienlijk verbetert. Tal van benchmarkdatasets zijn ontwikkeld om de codeervaardigheden van deze modellen te evalueren, waarbij ze zich voornamelijk richten op probleemoplossing en issue-oplossingstaken. Daarentegen introduceren wij een nieuwe codeerbenchmark, MIGRATION-BENCH, met een duidelijk ander focuspunt: codemigratie. MIGRATION-BENCH heeft als doel een uitgebreide benchmark te zijn voor migratie van Java 8 naar de nieuwste langetermijnondersteuningsversies (LTS) (Java 17, 21). MIGRATION-BENCH omvat een volledige dataset en een subset daarvan, geselecteerd met respectievelijk 5.102 en 300 repositories. De geselecteerde subset is een representatieve selectie, samengesteld op basis van complexiteit en moeilijkheidsgraad, en biedt een veelzijdige bron om onderzoek op het gebied van codemigratie te ondersteunen. Daarnaast bieden wij een uitgebreid evaluatieraamwerk om een rigoureuze en gestandaardiseerde beoordeling van LLM's op deze uitdagende taak te vergemakkelijken. Wij stellen verder SD-Feedback voor en tonen aan dat LLM's effectief repository-level codemigratie naar Java 17 kunnen aanpakken. Voor de geselecteerde subset met Claude-3.5-Sonnet-v2 behaalt SD-Feedback een slagingspercentage (pass@1) van respectievelijk 62,33% en 27,00% voor minimale en maximale migratie. De benchmarkdataset en broncode zijn beschikbaar op: https://huggingface.co/collections/AmazonScience en https://github.com/amazon-science/self_debug respectievelijk.

English

With the rapid advancement of powerful large language models (LLMs) in recent years, a wide range of software engineering tasks can now be addressed using LLMs, significantly enhancing productivity and scalability. Numerous benchmark datasets have been developed to evaluate the coding capabilities of these models, while they primarily focus on problem-solving and issue-resolution tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a distinct focus: code migration. MIGRATION-BENCH aims to serve as a comprehensive benchmark for migration from Java 8 to the latest long-term support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset and its subset selected with 5,102 and 300 repositories respectively. Selected is a representative subset curated for complexity and difficulty, offering a versatile resource to support research in the field of code migration. Additionally, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively tackle repository-level code migration to Java 17. For the selected subset with Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate (pass@1) for minimal and maximal migration respectively. The benchmark dataset and source code are available at: https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug respectively.

MIGRATION-BENCH: Repository-Level Code Migratie Benchmark van Java 8

MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8

Samenvatting

Summary

Support

Support