MIGRATION-BENCH: Бенчмарк для миграции кода на уровне репозитория с Java 8

Аннотация

С быстрым развитием мощных больших языковых моделей (LLM) в последние годы широкий спектр задач в области программной инженерии теперь может быть решен с использованием LLM, что значительно повышает производительность и масштабируемость. Множество эталонных наборов данных было разработано для оценки способностей этих моделей в написании кода, однако они в основном сосредоточены на задачах решения проблем и устранения ошибок. В отличие от них, мы представляем новый эталонный набор данных MIGRATION-BENCH с уникальной направленностью: миграция кода. MIGRATION-BENCH призван служить всеобъемлющим эталоном для миграции с Java 8 на последние долгосрочные поддерживаемые версии (LTS) (Java 17, 21). MIGRATION-BENCH включает полный набор данных и его подмножество, содержащее 5 102 и 300 репозиториев соответственно. Подмножество отобрано как репрезентативное, учитывая сложность и трудность задач, и предлагает универсальный ресурс для поддержки исследований в области миграции кода. Кроме того, мы предоставляем комплексную структуру оценки для облегчения строгого и стандартизированного тестирования LLM на этой сложной задаче. Мы также предлагаем SD-Feedback и демонстрируем, что LLM могут эффективно справляться с миграцией кода на уровне репозитория на Java 17. Для выбранного подмножества с использованием Claude-3.5-Sonnet-v2 SD-Feedback достигает 62,33% и 27,00% успешности (pass@1) для минимальной и максимальной миграции соответственно. Эталонный набор данных и исходный код доступны по адресам: https://huggingface.co/collections/AmazonScience и https://github.com/amazon-science/self_debug соответственно.

English

With the rapid advancement of powerful large language models (LLMs) in recent years, a wide range of software engineering tasks can now be addressed using LLMs, significantly enhancing productivity and scalability. Numerous benchmark datasets have been developed to evaluate the coding capabilities of these models, while they primarily focus on problem-solving and issue-resolution tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a distinct focus: code migration. MIGRATION-BENCH aims to serve as a comprehensive benchmark for migration from Java 8 to the latest long-term support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset and its subset selected with 5,102 and 300 repositories respectively. Selected is a representative subset curated for complexity and difficulty, offering a versatile resource to support research in the field of code migration. Additionally, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively tackle repository-level code migration to Java 17. For the selected subset with Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate (pass@1) for minimal and maximal migration respectively. The benchmark dataset and source code are available at: https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug respectively.

MIGRATION-BENCH: Бенчмарк для миграции кода на уровне репозитория с Java 8

MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8

Аннотация

Support