CodeMMLU: Ein Multi-Task-Benchmark zur Bewertung der Code-Verständnisfähigkeiten von CodeLLMs
CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs
October 2, 2024
Autoren: Dung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui
cs.AI
Zusammenfassung
In den jüngsten Fortschritten bei Code Large Language Models (CodeLLMs) lag der Schwerpunkt überwiegend auf offenen Codegenerierungsaufgaben, wobei oft der entscheidende Aspekt des Codeverständnisses und der Codekomprehension vernachlässigt wurde. Um diese Lücke zu schließen, präsentieren wir CodeMMLU, einen umfassenden Multiple-Choice-Fragen-Antworten-Benchmark, der darauf abzielt, die Tiefe des Software- und Codeverständnisses in LLMs zu bewerten. CodeMMLU umfasst über 10.000 Fragen aus verschiedenen Bereichen, die Aufgaben wie Codeanalyse, Fehlererkennung und Softwaretechnikprinzipien in verschiedenen Programmiersprachen umfassen. Im Gegensatz zu traditionellen Benchmarks bewertet CodeMMLU die Fähigkeit von Modellen, über Code zu argumentieren, anstatt ihn lediglich zu generieren, und liefert tiefere Einblicke in ihr Verständnis komplexer Softwarekonzepte und -systeme. Unsere umfangreiche Evaluation zeigt, dass selbst modernste Modelle erhebliche Herausforderungen mit CodeMMLU haben, was auf Defizite im Verständnis über die reine Codegenerierung hinaus hinweist. Indem die entscheidende Beziehung zwischen Codeverständnis und effektiver Generierung hervorgehoben wird, dient CodeMMLU als wichtige Ressource zur Förderung der KI-unterstützten Softwareentwicklung und zielt letztendlich darauf ab, zuverlässigere und leistungsfähigere Kodierassistenten zu schaffen.
English
Recent advancements in Code Large Language Models (CodeLLMs) have
predominantly focused on open-ended code generation tasks, often neglecting the
critical aspect of code understanding and comprehension. To bridge this gap, we
present CodeMMLU, a comprehensive multiple-choice question-answer benchmark
designed to evaluate the depth of software and code understanding in LLMs.
CodeMMLU includes over 10,000 questions sourced from diverse domains,
encompassing tasks such as code analysis, defect detection, and software
engineering principles across multiple programming languages. Unlike
traditional benchmarks, CodeMMLU assesses models's ability to reason about code
rather than merely generate it, providing deeper insights into their grasp of
complex software concepts and systems. Our extensive evaluation reveals that
even state-of-the-art models face significant challenges with CodeMMLU,
highlighting deficiencies in comprehension beyond code generation. By
underscoring the crucial relationship between code understanding and effective
generation, CodeMMLU serves as a vital resource for advancing AI-assisted
software development, ultimately aiming to create more reliable and capable
coding assistants.Summary
AI-Generated Summary