CodeMMLU: un benchmark multi-task per valutare le capacità di comprensione del codice dei CodeLLM.
CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs
October 2, 2024
Autori: Dung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui
cs.AI
Abstract
I recenti progressi nei Grandi Modelli Linguistici per il Codice (CodeLLMs) si sono principalmente concentrati su compiti di generazione di codice aperto, trascurando spesso l'aspetto critico della comprensione del codice. Per colmare questa lacuna, presentiamo CodeMMLU, un ampio benchmark di domande a scelta multipla progettato per valutare la profondità della comprensione del software e del codice nei LLMs. CodeMMLU include oltre 10.000 domande provenienti da domini diversi, che comprendono compiti come l'analisi del codice, la rilevazione dei difetti e i principi dell'ingegneria del software in diversi linguaggi di programmazione. A differenza dei benchmark tradizionali, CodeMMLU valuta la capacità dei modelli di ragionare sul codice anziché semplicemente generarlo, fornendo approfondimenti più dettagliati sulla loro comprensione dei concetti e dei sistemi software complessi. La nostra approfondita valutazione rivela che anche i modelli all'avanguardia affrontano sfide significative con CodeMMLU, evidenziando carenze nella comprensione al di là della generazione di codice. Sottolineando il rapporto cruciale tra la comprensione del codice e la generazione efficace, CodeMMLU si configura come una risorsa fondamentale per far progredire lo sviluppo software assistito dall'IA, con l'obiettivo finale di creare assistenti alla codifica più affidabili e capaci.
English
Recent advancements in Code Large Language Models (CodeLLMs) have
predominantly focused on open-ended code generation tasks, often neglecting the
critical aspect of code understanding and comprehension. To bridge this gap, we
present CodeMMLU, a comprehensive multiple-choice question-answer benchmark
designed to evaluate the depth of software and code understanding in LLMs.
CodeMMLU includes over 10,000 questions sourced from diverse domains,
encompassing tasks such as code analysis, defect detection, and software
engineering principles across multiple programming languages. Unlike
traditional benchmarks, CodeMMLU assesses models's ability to reason about code
rather than merely generate it, providing deeper insights into their grasp of
complex software concepts and systems. Our extensive evaluation reveals that
even state-of-the-art models face significant challenges with CodeMMLU,
highlighting deficiencies in comprehension beyond code generation. By
underscoring the crucial relationship between code understanding and effective
generation, CodeMMLU serves as a vital resource for advancing AI-assisted
software development, ultimately aiming to create more reliable and capable
coding assistants.