Long Code Arena: un conjunto de puntos de referencia para modelos de código de contexto largo
Long Code Arena: a Set of Benchmarks for Long-Context Code Models
June 17, 2024
Autores: Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin
cs.AI
Resumen
En la actualidad, los campos del procesamiento de código y lenguaje natural están evolucionando rápidamente. En particular, los modelos han mejorado en el manejo de ventanas de contexto largas: los tamaños de contexto soportados han aumentado en órdenes de magnitud en los últimos años. Sin embargo, existe una escasez de benchmarks para el procesamiento de código que vayan más allá de un solo archivo de contexto, mientras que los más populares se limitan a un solo método. Con este trabajo, buscamos cerrar esta brecha presentando Long Code Arena, un conjunto de seis benchmarks para tareas de procesamiento de código que requieren contexto a nivel de proyecto. Estas tareas cubren diferentes aspectos del procesamiento de código: generación de código basado en bibliotecas, reparación de builds de CI, completado de código a nivel de proyecto, generación de mensajes de commit, localización de errores y resumen de módulos. Para cada tarea, proporcionamos un conjunto de datos verificado manualmente para pruebas, una suite de evaluación y soluciones de referencia de código abierto basadas en LLMs populares para mostrar el uso del conjunto de datos y facilitar su adopción por otros investigadores. Publicamos la página del benchmark en HuggingFace Spaces con un leaderboard, enlaces al HuggingFace Hub para todos los conjuntos de datos y un enlace al repositorio de GitHub con las soluciones de referencia: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
English
Nowadays, the fields of code and natural language processing are evolving
rapidly. In particular, models become better at processing long context windows
- supported context sizes have increased by orders of magnitude over the last
few years. However, there is a shortage of benchmarks for code processing that
go beyond a single file of context, while the most popular ones are limited to
a single method. With this work, we aim to close this gap by introducing Long
Code Arena, a suite of six benchmarks for code processing tasks that require
project-wide context. These tasks cover different aspects of code processing:
library-based code generation, CI builds repair, project-level code completion,
commit message generation, bug localization, and module summarization. For each
task, we provide a manually verified dataset for testing, an evaluation suite,
and open-source baseline solutions based on popular LLMs to showcase the usage
of the dataset and to simplify adoption by other researchers. We publish the
benchmark page on HuggingFace Spaces with the leaderboard, links to HuggingFace
Hub for all the datasets, and link to the GitHub repository with baselines:
https://huggingface.co/spaces/JetBrains-Research/long-code-arena.Summary
AI-Generated Summary