MIGRATION-BENCH: Repository-Level Code-Migrations-Benchmark von Java 8

papers.abstract

Mit der rasanten Entwicklung leistungsstarker großer Sprachmodelle (LLMs) in den letzten Jahren kann nun eine Vielzahl von Software-Engineering-Aufgaben mithilfe von LLMs bewältigt werden, was die Produktivität und Skalierbarkeit erheblich steigert. Zahlreiche Benchmark-Datensätze wurden entwickelt, um die Programmierfähigkeiten dieser Modelle zu bewerten, wobei sie sich hauptsächlich auf Problemstellungen und Fehlerbehebungsaufgaben konzentrieren. Im Gegensatz dazu stellen wir einen neuen Programmier-Benchmark, MIGRATION-BENCH, mit einem besonderen Fokus vor: Code-Migration. MIGRATION-BENCH soll als umfassender Benchmark für die Migration von Java 8 zu den neuesten Long-Term-Support (LTS)-Versionen (Java 17, 21) dienen. MIGRATION-BENCH umfasst einen vollständigen Datensatz und eine Teilmenge, die mit 5.102 bzw. 300 Repositories ausgewählt wurde. Die ausgewählte Teilmenge wurde hinsichtlich Komplexität und Schwierigkeitsgrad kuratiert und bietet eine vielseitige Ressource zur Unterstützung der Forschung im Bereich der Code-Migration. Zusätzlich stellen wir ein umfassendes Bewertungsframework bereit, um eine rigorose und standardisierte Bewertung von LLMs bei dieser anspruchsvollen Aufgabe zu ermöglichen. Wir schlagen weiterhin SD-Feedback vor und zeigen, dass LLMs effektiv die Code-Migration auf Repository-Ebene zu Java 17 bewältigen können. Für die ausgewählte Teilmenge mit Claude-3.5-Sonnet-v2 erreicht SD-Feedback eine Erfolgsrate (pass@1) von 62,33 % bzw. 27,00 % für minimale und maximale Migration. Der Benchmark-Datensatz und der Quellcode sind verfügbar unter: https://huggingface.co/collections/AmazonScience und https://github.com/amazon-science/self_debug.

English

With the rapid advancement of powerful large language models (LLMs) in recent years, a wide range of software engineering tasks can now be addressed using LLMs, significantly enhancing productivity and scalability. Numerous benchmark datasets have been developed to evaluate the coding capabilities of these models, while they primarily focus on problem-solving and issue-resolution tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a distinct focus: code migration. MIGRATION-BENCH aims to serve as a comprehensive benchmark for migration from Java 8 to the latest long-term support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset and its subset selected with 5,102 and 300 repositories respectively. Selected is a representative subset curated for complexity and difficulty, offering a versatile resource to support research in the field of code migration. Additionally, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively tackle repository-level code migration to Java 17. For the selected subset with Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate (pass@1) for minimal and maximal migration respectively. The benchmark dataset and source code are available at: https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug respectively.