ChatPaper.aiChatPaper

Длинная Кодовая Арена: набор тестов для моделей кода с длинным контекстом

Long Code Arena: a Set of Benchmarks for Long-Context Code Models

June 17, 2024
Авторы: Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin
cs.AI

Аннотация

В настоящее время области обработки кода и естественного языка быстро развиваются. В частности, модели становятся лучше в обработке длинных окон контекста - поддерживаемые размеры контекста увеличились на порядки за последние несколько лет. Однако существует нехватка эталонов для обработки кода, выходящих за рамки одного файла контекста, в то время как наиболее популярные ограничены одним методом. В данной работе мы стремимся закрыть этот разрыв, представив Long Code Arena - набор из шести эталонов для задач обработки кода, требующих контекста на уровне проекта. Эти задачи охватывают различные аспекты обработки кода: генерация кода на основе библиотек, восстановление сборок CI, завершение кода на уровне проекта, генерация сообщений о фиксации, локализация ошибок и суммирование модулей. Для каждой задачи мы предоставляем проверенный вручную набор данных для тестирования, набор оценочных средств и базовые решения с открытым исходным кодом на основе популярных LLM, чтобы продемонстрировать использование набора данных и упростить его принятие другими исследователями. Мы публикуем страницу с эталонами на HuggingFace Spaces с лидербордом, ссылками на HuggingFace Hub для всех наборов данных и ссылкой на репозиторий GitHub с базовыми решениями: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
English
Nowadays, the fields of code and natural language processing are evolving rapidly. In particular, models become better at processing long context windows - supported context sizes have increased by orders of magnitude over the last few years. However, there is a shortage of benchmarks for code processing that go beyond a single file of context, while the most popular ones are limited to a single method. With this work, we aim to close this gap by introducing Long Code Arena, a suite of six benchmarks for code processing tasks that require project-wide context. These tasks cover different aspects of code processing: library-based code generation, CI builds repair, project-level code completion, commit message generation, bug localization, and module summarization. For each task, we provide a manually verified dataset for testing, an evaluation suite, and open-source baseline solutions based on popular LLMs to showcase the usage of the dataset and to simplify adoption by other researchers. We publish the benchmark page on HuggingFace Spaces with the leaderboard, links to HuggingFace Hub for all the datasets, and link to the GitHub repository with baselines: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.

Summary

AI-Generated Summary

PDF253December 3, 2024