MIGRATION-BENCH: Бенчмарк для миграции кода на уровне репозитория с Java 8
MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8
May 14, 2025
Авторы: Linbo Liu, Xinle Liu, Qiang Zhou, Lin Chen, Yihan Liu, Hoan Nguyen, Behrooz Omidvar-Tehrani, Xi Shen, Jun Huan, Omer Tripp, Anoop Deoras
cs.AI
Аннотация
С быстрым развитием мощных больших языковых моделей (LLM) в последние годы широкий спектр задач в области программной инженерии теперь может быть решен с использованием LLM, что значительно повышает производительность и масштабируемость. Множество эталонных наборов данных было разработано для оценки способностей этих моделей в написании кода, однако они в основном сосредоточены на задачах решения проблем и устранения ошибок. В отличие от них, мы представляем новый эталонный набор данных MIGRATION-BENCH с уникальной направленностью: миграция кода. MIGRATION-BENCH призван служить всеобъемлющим эталоном для миграции с Java 8 на последние долгосрочные поддерживаемые версии (LTS) (Java 17, 21). MIGRATION-BENCH включает полный набор данных и его подмножество, содержащее 5 102 и 300 репозиториев соответственно. Подмножество отобрано как репрезентативное, учитывая сложность и трудность задач, и предлагает универсальный ресурс для поддержки исследований в области миграции кода. Кроме того, мы предоставляем комплексную структуру оценки для облегчения строгого и стандартизированного тестирования LLM на этой сложной задаче. Мы также предлагаем SD-Feedback и демонстрируем, что LLM могут эффективно справляться с миграцией кода на уровне репозитория на Java 17. Для выбранного подмножества с использованием Claude-3.5-Sonnet-v2 SD-Feedback достигает 62,33% и 27,00% успешности (pass@1) для минимальной и максимальной миграции соответственно. Эталонный набор данных и исходный код доступны по адресам: https://huggingface.co/collections/AmazonScience и https://github.com/amazon-science/self_debug соответственно.
English
With the rapid advancement of powerful large language models (LLMs) in recent
years, a wide range of software engineering tasks can now be addressed using
LLMs, significantly enhancing productivity and scalability. Numerous benchmark
datasets have been developed to evaluate the coding capabilities of these
models, while they primarily focus on problem-solving and issue-resolution
tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a
distinct focus: code migration. MIGRATION-BENCH aims to serve as a
comprehensive benchmark for migration from Java 8 to the latest long-term
support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset
and its subset selected with 5,102 and 300 repositories respectively.
Selected is a representative subset curated for complexity and difficulty,
offering a versatile resource to support research in the field of code
migration. Additionally, we provide a comprehensive evaluation framework to
facilitate rigorous and standardized assessment of LLMs on this challenging
task. We further propose SD-Feedback and demonstrate that LLMs can effectively
tackle repository-level code migration to Java 17. For the selected subset with
Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate
(pass@1) for minimal and maximal migration respectively. The benchmark dataset
and source code are available at:
https://huggingface.co/collections/AmazonScience and
https://github.com/amazon-science/self_debug respectively.Summary
AI-Generated Summary