Long Code Arena: een reeks benchmarks voor code-modellen met lange context
Long Code Arena: a Set of Benchmarks for Long-Context Code Models
June 17, 2024
Auteurs: Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin
cs.AI
Samenvatting
Tegenwoordig ontwikkelen de vakgebieden van code- en natuurlijke taalverwerking zich snel. Met name worden modellen steeds beter in het verwerken van lange contextvensters - de ondersteunde contextgroottes zijn de afgelopen jaren met ordes van grootte toegenomen. Er is echter een tekort aan benchmarks voor codeverwerking die verder gaan dan een enkel bestand als context, terwijl de meest populaire benchmarks beperkt blijven tot een enkele methode. Met dit werk willen we deze kloof dichten door Long Code Arena te introduceren, een suite van zes benchmarks voor codeverwerkingstaken die projectbrede context vereisen. Deze taken beslaan verschillende aspecten van codeverwerking: bibliotheekgebaseerde codegeneratie, CI-builds repareren, projectniveau codecompletering, commit-berichtgeneratie, buglokalisatie en modulesamenvatting. Voor elke taak bieden we een handmatig geverifieerde dataset voor testen, een evaluatiesuite en open-source basislijnoplossingen gebaseerd op populaire LLM's om het gebruik van de dataset te demonstreren en de adoptie door andere onderzoekers te vergemakkelijken. We publiceren de benchmarkpagina op HuggingFace Spaces met een leaderboard, links naar de HuggingFace Hub voor alle datasets en een link naar de GitHub-repository met de basislijnen: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
English
Nowadays, the fields of code and natural language processing are evolving
rapidly. In particular, models become better at processing long context windows
- supported context sizes have increased by orders of magnitude over the last
few years. However, there is a shortage of benchmarks for code processing that
go beyond a single file of context, while the most popular ones are limited to
a single method. With this work, we aim to close this gap by introducing Long
Code Arena, a suite of six benchmarks for code processing tasks that require
project-wide context. These tasks cover different aspects of code processing:
library-based code generation, CI builds repair, project-level code completion,
commit message generation, bug localization, and module summarization. For each
task, we provide a manually verified dataset for testing, an evaluation suite,
and open-source baseline solutions based on popular LLMs to showcase the usage
of the dataset and to simplify adoption by other researchers. We publish the
benchmark page on HuggingFace Spaces with the leaderboard, links to HuggingFace
Hub for all the datasets, and link to the GitHub repository with baselines:
https://huggingface.co/spaces/JetBrains-Research/long-code-arena.