MIGRATION-BENCH : Benchmark de migration de code au niveau du dépôt de Java 8
MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8
May 14, 2025
papers.authors: Linbo Liu, Xinle Liu, Qiang Zhou, Lin Chen, Yihan Liu, Hoan Nguyen, Behrooz Omidvar-Tehrani, Xi Shen, Jun Huan, Omer Tripp, Anoop Deoras
cs.AI
papers.abstract
Avec les progrès rapides des modèles de langage de grande envergure (LLM) ces dernières années, un large éventail de tâches en ingénierie logicielle peut désormais être abordé à l'aide de ces modèles, améliorant ainsi considérablement la productivité et l'évolutivité. De nombreux jeux de données de référence ont été développés pour évaluer les capacités de codage de ces modèles, bien qu'ils se concentrent principalement sur des tâches de résolution de problèmes et de correction d'erreurs. En revanche, nous introduisons un nouveau benchmark de codage, MIGRATION-BENCH, avec un objectif distinct : la migration de code. MIGRATION-BENCH vise à servir de référence exhaustive pour la migration de Java 8 vers les dernières versions à support à long terme (LTS) (Java 17, 21). MIGRATION-BENCH inclut un jeu de données complet et un sous-ensemble sélectionné avec respectivement 5 102 et 300 dépôts. Le sous-ensemble sélectionné est représentatif, choisi pour sa complexité et sa difficulté, offrant ainsi une ressource polyvalente pour soutenir la recherche dans le domaine de la migration de code. De plus, nous fournissons un cadre d'évaluation complet pour faciliter une évaluation rigoureuse et standardisée des LLM sur cette tâche complexe. Nous proposons également SD-Feedback et démontrons que les LLM peuvent efficacement gérer la migration de code au niveau du dépôt vers Java 17. Pour le sous-ensemble sélectionné avec Claude-3.5-Sonnet-v2, SD-Feedback atteint un taux de réussite (pass@1) de 62,33 % et 27,00 % pour les migrations minimales et maximales respectivement. Le jeu de données de référence et le code source sont disponibles à l'adresse suivante : https://huggingface.co/collections/AmazonScience et https://github.com/amazon-science/self_debug respectivement.
English
With the rapid advancement of powerful large language models (LLMs) in recent
years, a wide range of software engineering tasks can now be addressed using
LLMs, significantly enhancing productivity and scalability. Numerous benchmark
datasets have been developed to evaluate the coding capabilities of these
models, while they primarily focus on problem-solving and issue-resolution
tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a
distinct focus: code migration. MIGRATION-BENCH aims to serve as a
comprehensive benchmark for migration from Java 8 to the latest long-term
support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset
and its subset selected with 5,102 and 300 repositories respectively.
Selected is a representative subset curated for complexity and difficulty,
offering a versatile resource to support research in the field of code
migration. Additionally, we provide a comprehensive evaluation framework to
facilitate rigorous and standardized assessment of LLMs on this challenging
task. We further propose SD-Feedback and demonstrate that LLMs can effectively
tackle repository-level code migration to Java 17. For the selected subset with
Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate
(pass@1) for minimal and maximal migration respectively. The benchmark dataset
and source code are available at:
https://huggingface.co/collections/AmazonScience and
https://github.com/amazon-science/self_debug respectively.