MIGRATION-BENCH: Repository-Level Code-Migrations-Benchmark von Java 8
MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8
May 14, 2025
Autoren: Linbo Liu, Xinle Liu, Qiang Zhou, Lin Chen, Yihan Liu, Hoan Nguyen, Behrooz Omidvar-Tehrani, Xi Shen, Jun Huan, Omer Tripp, Anoop Deoras
cs.AI
Zusammenfassung
Mit der rasanten Entwicklung leistungsstarker großer Sprachmodelle (LLMs) in den letzten Jahren kann nun eine Vielzahl von Software-Engineering-Aufgaben mithilfe von LLMs bewältigt werden, was die Produktivität und Skalierbarkeit erheblich steigert. Zahlreiche Benchmark-Datensätze wurden entwickelt, um die Programmierfähigkeiten dieser Modelle zu bewerten, wobei sie sich hauptsächlich auf Problemstellungen und Fehlerbehebungsaufgaben konzentrieren. Im Gegensatz dazu stellen wir einen neuen Programmier-Benchmark, MIGRATION-BENCH, mit einem besonderen Fokus vor: Code-Migration. MIGRATION-BENCH soll als umfassender Benchmark für die Migration von Java 8 zu den neuesten Long-Term-Support (LTS)-Versionen (Java 17, 21) dienen. MIGRATION-BENCH umfasst einen vollständigen Datensatz und eine Teilmenge, die mit 5.102 bzw. 300 Repositories ausgewählt wurde. Die ausgewählte Teilmenge wurde hinsichtlich Komplexität und Schwierigkeitsgrad kuratiert und bietet eine vielseitige Ressource zur Unterstützung der Forschung im Bereich der Code-Migration. Zusätzlich stellen wir ein umfassendes Bewertungsframework bereit, um eine rigorose und standardisierte Bewertung von LLMs bei dieser anspruchsvollen Aufgabe zu ermöglichen. Wir schlagen weiterhin SD-Feedback vor und zeigen, dass LLMs effektiv die Code-Migration auf Repository-Ebene zu Java 17 bewältigen können. Für die ausgewählte Teilmenge mit Claude-3.5-Sonnet-v2 erreicht SD-Feedback eine Erfolgsrate (pass@1) von 62,33 % bzw. 27,00 % für minimale und maximale Migration. Der Benchmark-Datensatz und der Quellcode sind verfügbar unter: https://huggingface.co/collections/AmazonScience und https://github.com/amazon-science/self_debug.
English
With the rapid advancement of powerful large language models (LLMs) in recent
years, a wide range of software engineering tasks can now be addressed using
LLMs, significantly enhancing productivity and scalability. Numerous benchmark
datasets have been developed to evaluate the coding capabilities of these
models, while they primarily focus on problem-solving and issue-resolution
tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a
distinct focus: code migration. MIGRATION-BENCH aims to serve as a
comprehensive benchmark for migration from Java 8 to the latest long-term
support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset
and its subset selected with 5,102 and 300 repositories respectively.
Selected is a representative subset curated for complexity and difficulty,
offering a versatile resource to support research in the field of code
migration. Additionally, we provide a comprehensive evaluation framework to
facilitate rigorous and standardized assessment of LLMs on this challenging
task. We further propose SD-Feedback and demonstrate that LLMs can effectively
tackle repository-level code migration to Java 17. For the selected subset with
Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate
(pass@1) for minimal and maximal migration respectively. The benchmark dataset
and source code are available at:
https://huggingface.co/collections/AmazonScience and
https://github.com/amazon-science/self_debug respectively.Summary
AI-Generated Summary