Long Code Arena: una serie di benchmark per modelli di codice con contesto esteso
Long Code Arena: a Set of Benchmarks for Long-Context Code Models
June 17, 2024
Autori: Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin
cs.AI
Abstract
Oggi, i campi dell'elaborazione del codice e del linguaggio naturale stanno evolvendo rapidamente. In particolare, i modelli stanno diventando sempre più abili nel gestire finestre di contesto lunghe: le dimensioni del contesto supportate sono aumentate di ordini di grandezza negli ultimi anni. Tuttavia, mancano benchmark per l'elaborazione del codice che vadano oltre il contesto di un singolo file, mentre i più popolari sono limitati a un singolo metodo. Con questo lavoro, miriamo a colmare questa lacuna introducendo Long Code Arena, una suite di sei benchmark per attività di elaborazione del codice che richiedono un contesto a livello di progetto. Queste attività coprono diversi aspetti dell'elaborazione del codice: generazione di codice basata su librerie, riparazione di build CI, completamento del codice a livello di progetto, generazione di messaggi di commit, localizzazione di bug e sintesi di moduli. Per ciascuna attività, forniamo un dataset verificato manualmente per i test, una suite di valutazione e soluzioni di base open-source basate su LLM popolari per mostrare l'utilizzo del dataset e semplificare l'adozione da parte di altri ricercatori. Pubblichiamo la pagina del benchmark su HuggingFace Spaces con la classifica, i link a HuggingFace Hub per tutti i dataset e il link al repository GitHub con le soluzioni di base: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
English
Nowadays, the fields of code and natural language processing are evolving
rapidly. In particular, models become better at processing long context windows
- supported context sizes have increased by orders of magnitude over the last
few years. However, there is a shortage of benchmarks for code processing that
go beyond a single file of context, while the most popular ones are limited to
a single method. With this work, we aim to close this gap by introducing Long
Code Arena, a suite of six benchmarks for code processing tasks that require
project-wide context. These tasks cover different aspects of code processing:
library-based code generation, CI builds repair, project-level code completion,
commit message generation, bug localization, and module summarization. For each
task, we provide a manually verified dataset for testing, an evaluation suite,
and open-source baseline solutions based on popular LLMs to showcase the usage
of the dataset and to simplify adoption by other researchers. We publish the
benchmark page on HuggingFace Spaces with the leaderboard, links to HuggingFace
Hub for all the datasets, and link to the GitHub repository with baselines:
https://huggingface.co/spaces/JetBrains-Research/long-code-arena.