Long Code Arena : un ensemble de benchmarks pour les modèles de code à contexte long
Long Code Arena: a Set of Benchmarks for Long-Context Code Models
June 17, 2024
Auteurs: Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin
cs.AI
Résumé
Aujourd'hui, les domaines du traitement du code et du langage naturel évoluent rapidement. En particulier, les modèles deviennent plus performants dans le traitement de fenêtres contextuelles longues - les tailles de contexte prises en charge ont augmenté de plusieurs ordres de grandeur au cours des dernières années. Cependant, il existe un manque de benchmarks pour le traitement du code qui dépassent le contexte d'un seul fichier, tandis que les plus populaires se limitent à une seule méthode. Avec ce travail, nous visons à combler cette lacune en introduisant Long Code Arena, une suite de six benchmarks pour des tâches de traitement du code nécessitant un contexte à l'échelle du projet. Ces tâches couvrent différents aspects du traitement du code : génération de code basée sur des bibliothèques, réparation de builds CI, complétion de code au niveau du projet, génération de messages de commit, localisation de bugs et synthèse de modules. Pour chaque tâche, nous fournissons un ensemble de données vérifié manuellement pour les tests, une suite d'évaluation et des solutions de base open source basées sur des LLM populaires pour illustrer l'utilisation des données et faciliter l'adoption par d'autres chercheurs. Nous publions la page du benchmark sur HuggingFace Spaces avec un classement, des liens vers HuggingFace Hub pour tous les ensembles de données, et un lien vers le dépôt GitHub contenant les solutions de base : https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
English
Nowadays, the fields of code and natural language processing are evolving
rapidly. In particular, models become better at processing long context windows
- supported context sizes have increased by orders of magnitude over the last
few years. However, there is a shortage of benchmarks for code processing that
go beyond a single file of context, while the most popular ones are limited to
a single method. With this work, we aim to close this gap by introducing Long
Code Arena, a suite of six benchmarks for code processing tasks that require
project-wide context. These tasks cover different aspects of code processing:
library-based code generation, CI builds repair, project-level code completion,
commit message generation, bug localization, and module summarization. For each
task, we provide a manually verified dataset for testing, an evaluation suite,
and open-source baseline solutions based on popular LLMs to showcase the usage
of the dataset and to simplify adoption by other researchers. We publish the
benchmark page on HuggingFace Spaces with the leaderboard, links to HuggingFace
Hub for all the datasets, and link to the GitHub repository with baselines:
https://huggingface.co/spaces/JetBrains-Research/long-code-arena.Summary
AI-Generated Summary