MIGRATION-BENCH : Benchmark de migration de code au niveau du dépôt de Java 8

papers.abstract

Avec les progrès rapides des modèles de langage de grande envergure (LLM) ces dernières années, un large éventail de tâches en ingénierie logicielle peut désormais être abordé à l'aide de ces modèles, améliorant ainsi considérablement la productivité et l'évolutivité. De nombreux jeux de données de référence ont été développés pour évaluer les capacités de codage de ces modèles, bien qu'ils se concentrent principalement sur des tâches de résolution de problèmes et de correction d'erreurs. En revanche, nous introduisons un nouveau benchmark de codage, MIGRATION-BENCH, avec un objectif distinct : la migration de code. MIGRATION-BENCH vise à servir de référence exhaustive pour la migration de Java 8 vers les dernières versions à support à long terme (LTS) (Java 17, 21). MIGRATION-BENCH inclut un jeu de données complet et un sous-ensemble sélectionné avec respectivement 5 102 et 300 dépôts. Le sous-ensemble sélectionné est représentatif, choisi pour sa complexité et sa difficulté, offrant ainsi une ressource polyvalente pour soutenir la recherche dans le domaine de la migration de code. De plus, nous fournissons un cadre d'évaluation complet pour faciliter une évaluation rigoureuse et standardisée des LLM sur cette tâche complexe. Nous proposons également SD-Feedback et démontrons que les LLM peuvent efficacement gérer la migration de code au niveau du dépôt vers Java 17. Pour le sous-ensemble sélectionné avec Claude-3.5-Sonnet-v2, SD-Feedback atteint un taux de réussite (pass@1) de 62,33 % et 27,00 % pour les migrations minimales et maximales respectivement. Le jeu de données de référence et le code source sont disponibles à l'adresse suivante : https://huggingface.co/collections/AmazonScience et https://github.com/amazon-science/self_debug respectivement.

English

With the rapid advancement of powerful large language models (LLMs) in recent years, a wide range of software engineering tasks can now be addressed using LLMs, significantly enhancing productivity and scalability. Numerous benchmark datasets have been developed to evaluate the coding capabilities of these models, while they primarily focus on problem-solving and issue-resolution tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a distinct focus: code migration. MIGRATION-BENCH aims to serve as a comprehensive benchmark for migration from Java 8 to the latest long-term support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset and its subset selected with 5,102 and 300 repositories respectively. Selected is a representative subset curated for complexity and difficulty, offering a versatile resource to support research in the field of code migration. Additionally, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively tackle repository-level code migration to Java 17. For the selected subset with Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate (pass@1) for minimal and maximal migration respectively. The benchmark dataset and source code are available at: https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug respectively.

MIGRATION-BENCH : Benchmark de migration de code au niveau du dépôt de Java 8

MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8

papers.abstract

Support