ChatPaper.aiChatPaper

Langzeit-Code-Arena: Eine Reihe von Benchmarks für Code-Modelle mit langem Kontext

Long Code Arena: a Set of Benchmarks for Long-Context Code Models

June 17, 2024
Autoren: Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin
cs.AI

Zusammenfassung

Heutzutage entwickeln sich die Bereiche Code und natürliche Sprachverarbeitung schnell weiter. Insbesondere werden Modelle immer besser darin, lange Kontextfenster zu verarbeiten - unterstützte Kontextgrößen haben sich in den letzten Jahren um Größenordnungen erhöht. Es gibt jedoch einen Mangel an Benchmarks für die Codeverarbeitung, die über eine einzelne Kontextdatei hinausgehen, während die beliebtesten auf eine einzelne Methode beschränkt sind. Mit dieser Arbeit zielen wir darauf ab, diese Lücke zu schließen, indem wir Long Code Arena vorstellen, eine Reihe von sechs Benchmarks für Codeverarbeitungsaufgaben, die projektweiten Kontext erfordern. Diese Aufgaben decken verschiedene Aspekte der Codeverarbeitung ab: bibliotheksbasierte Codegenerierung, Reparatur von CI-Builds, Codevervollständigung auf Projektebene, Generierung von Commit-Nachrichten, Lokalisierung von Fehlern und Modulzusammenfassung. Für jede Aufgabe stellen wir einen manuell überprüften Datensatz für Tests, eine Bewertungssuite und Open-Source-Basissolutions basierend auf beliebten LLMs bereit, um die Verwendung des Datensatzes zu demonstrieren und die Übernahme durch andere Forscher zu vereinfachen. Wir veröffentlichen die Benchmark-Seite auf HuggingFace Spaces mit der Bestenliste, Links zum HuggingFace Hub für alle Datensätze und einen Link zum GitHub-Repository mit den Baselines: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
English
Nowadays, the fields of code and natural language processing are evolving rapidly. In particular, models become better at processing long context windows - supported context sizes have increased by orders of magnitude over the last few years. However, there is a shortage of benchmarks for code processing that go beyond a single file of context, while the most popular ones are limited to a single method. With this work, we aim to close this gap by introducing Long Code Arena, a suite of six benchmarks for code processing tasks that require project-wide context. These tasks cover different aspects of code processing: library-based code generation, CI builds repair, project-level code completion, commit message generation, bug localization, and module summarization. For each task, we provide a manually verified dataset for testing, an evaluation suite, and open-source baseline solutions based on popular LLMs to showcase the usage of the dataset and to simplify adoption by other researchers. We publish the benchmark page on HuggingFace Spaces with the leaderboard, links to HuggingFace Hub for all the datasets, and link to the GitHub repository with baselines: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.

Summary

AI-Generated Summary

PDF253December 3, 2024