Long Code Arena: Um Conjunto de Benchmarks para Modelos de Código com Contexto Longo
Long Code Arena: a Set of Benchmarks for Long-Context Code Models
June 17, 2024
Autores: Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin
cs.AI
Resumo
Atualmente, os campos de processamento de código e linguagem natural estão evoluindo rapidamente. Em particular, os modelos estão se tornando cada vez melhores em processar janelas de contexto longas - os tamanhos de contexto suportados aumentaram em ordens de magnitude nos últimos anos. No entanto, há uma escassez de benchmarks para processamento de código que vão além de um único arquivo de contexto, enquanto os mais populares são limitados a um único método. Com este trabalho, nosso objetivo é preencher essa lacuna introduzindo o Long Code Arena, um conjunto de seis benchmarks para tarefas de processamento de código que exigem contexto em nível de projeto. Essas tarefas cobrem diferentes aspectos do processamento de código: geração de código baseada em bibliotecas, reparo de builds de CI, conclusão de código em nível de projeto, geração de mensagens de commit, localização de bugs e sumarização de módulos. Para cada tarefa, fornecemos um conjunto de dados manualmente verificado para testes, uma suíte de avaliação e soluções de base de código aberto baseadas em LLMs populares para demonstrar o uso do conjunto de dados e simplificar a adoção por outros pesquisadores. Publicamos a página do benchmark no HuggingFace Spaces com o leaderboard, links para o HuggingFace Hub para todos os conjuntos de dados e o link para o repositório GitHub com as soluções de base: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
English
Nowadays, the fields of code and natural language processing are evolving
rapidly. In particular, models become better at processing long context windows
- supported context sizes have increased by orders of magnitude over the last
few years. However, there is a shortage of benchmarks for code processing that
go beyond a single file of context, while the most popular ones are limited to
a single method. With this work, we aim to close this gap by introducing Long
Code Arena, a suite of six benchmarks for code processing tasks that require
project-wide context. These tasks cover different aspects of code processing:
library-based code generation, CI builds repair, project-level code completion,
commit message generation, bug localization, and module summarization. For each
task, we provide a manually verified dataset for testing, an evaluation suite,
and open-source baseline solutions based on popular LLMs to showcase the usage
of the dataset and to simplify adoption by other researchers. We publish the
benchmark page on HuggingFace Spaces with the leaderboard, links to HuggingFace
Hub for all the datasets, and link to the GitHub repository with baselines:
https://huggingface.co/spaces/JetBrains-Research/long-code-arena.