CodeMMLU: Een Multi-Task Benchmark voor het Beoordelen van de Code Begripscapaciteiten van CodeLLMs

Samenvatting

Recente ontwikkelingen in Grote Taalmodellen voor Code (CodeLLMs) hebben zich voornamelijk gericht op open-ended code generatietaken, waarbij vaak het cruciale aspect van code begrip en begrijpen wordt verwaarloosd. Om deze kloof te overbruggen, presenteren wij CodeMMLU, een uitgebreide meerkeuzevraag-antwoord benchmark ontworpen om de diepte van software- en codebegrip in LLMs te evalueren. CodeMMLU omvat meer dan 10.000 vragen afkomstig uit diverse domeinen, met taken zoals code analyse, defect detectie, en software engineering principes in meerdere programmeertalen. In tegenstelling tot traditionele benchmarks beoordeelt CodeMMLU het vermogen van modellen om te redeneren over code in plaats van deze alleen te genereren, waardoor diepere inzichten worden verkregen in hun begrip van complexe softwareconcepten en -systemen. Onze uitgebreide evaluatie onthult dat zelfs state-of-the-art modellen aanzienlijke uitdagingen ondervinden met CodeMMLU, waarbij tekortkomingen in begrip voorbij code generatie worden benadrukt. Door de cruciale relatie tussen code begrip en effectieve generatie te benadrukken, dient CodeMMLU als een essentiële bron voor het bevorderen van door AI ondersteunde softwareontwikkeling, met als uiteindelijk doel het creëren van betrouwbaardere en capabelere code-assistenten.

English

Recent advancements in Code Large Language Models (CodeLLMs) have predominantly focused on open-ended code generation tasks, often neglecting the critical aspect of code understanding and comprehension. To bridge this gap, we present CodeMMLU, a comprehensive multiple-choice question-answer benchmark designed to evaluate the depth of software and code understanding in LLMs. CodeMMLU includes over 10,000 questions sourced from diverse domains, encompassing tasks such as code analysis, defect detection, and software engineering principles across multiple programming languages. Unlike traditional benchmarks, CodeMMLU assesses models's ability to reason about code rather than merely generate it, providing deeper insights into their grasp of complex software concepts and systems. Our extensive evaluation reveals that even state-of-the-art models face significant challenges with CodeMMLU, highlighting deficiencies in comprehension beyond code generation. By underscoring the crucial relationship between code understanding and effective generation, CodeMMLU serves as a vital resource for advancing AI-assisted software development, ultimately aiming to create more reliable and capable coding assistants.

CodeMMLU: Een Multi-Task Benchmark voor het Beoordelen van de Code Begripscapaciteiten van CodeLLMs

CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs

Samenvatting

Support