Long Code Arena: una serie di benchmark per modelli di codice con contesto esteso

Abstract

Oggi, i campi dell'elaborazione del codice e del linguaggio naturale stanno evolvendo rapidamente. In particolare, i modelli stanno diventando sempre più abili nel gestire finestre di contesto lunghe: le dimensioni del contesto supportate sono aumentate di ordini di grandezza negli ultimi anni. Tuttavia, mancano benchmark per l'elaborazione del codice che vadano oltre il contesto di un singolo file, mentre i più popolari sono limitati a un singolo metodo. Con questo lavoro, miriamo a colmare questa lacuna introducendo Long Code Arena, una suite di sei benchmark per attività di elaborazione del codice che richiedono un contesto a livello di progetto. Queste attività coprono diversi aspetti dell'elaborazione del codice: generazione di codice basata su librerie, riparazione di build CI, completamento del codice a livello di progetto, generazione di messaggi di commit, localizzazione di bug e sintesi di moduli. Per ciascuna attività, forniamo un dataset verificato manualmente per i test, una suite di valutazione e soluzioni di base open-source basate su LLM popolari per mostrare l'utilizzo del dataset e semplificare l'adozione da parte di altri ricercatori. Pubblichiamo la pagina del benchmark su HuggingFace Spaces con la classifica, i link a HuggingFace Hub per tutti i dataset e il link al repository GitHub con le soluzioni di base: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.

English

Nowadays, the fields of code and natural language processing are evolving rapidly. In particular, models become better at processing long context windows - supported context sizes have increased by orders of magnitude over the last few years. However, there is a shortage of benchmarks for code processing that go beyond a single file of context, while the most popular ones are limited to a single method. With this work, we aim to close this gap by introducing Long Code Arena, a suite of six benchmarks for code processing tasks that require project-wide context. These tasks cover different aspects of code processing: library-based code generation, CI builds repair, project-level code completion, commit message generation, bug localization, and module summarization. For each task, we provide a manually verified dataset for testing, an evaluation suite, and open-source baseline solutions based on popular LLMs to showcase the usage of the dataset and to simplify adoption by other researchers. We publish the benchmark page on HuggingFace Spaces with the leaderboard, links to HuggingFace Hub for all the datasets, and link to the GitHub repository with baselines: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.

Long Code Arena: una serie di benchmark per modelli di codice con contesto esteso

Long Code Arena: a Set of Benchmarks for Long-Context Code Models

Abstract

Support