CodeMMLU : un banc d'essai multi-tâches pour évaluer les capacités de compréhension de code des CodeLLM.
CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs
October 2, 2024
Auteurs: Dung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui
cs.AI
Résumé
Les récents progrès dans les Modèles de Langage de Code Large (CodeLLMs) se sont principalement concentrés sur des tâches de génération de code ouvertes, négligeant souvent l'aspect critique de la compréhension et de la compréhension du code. Pour combler cette lacune, nous présentons CodeMMLU, un banc d'essai complet de questions à choix multiples conçu pour évaluer la profondeur de la compréhension du logiciel et du code dans les LLMs. CodeMMLU comprend plus de 10 000 questions provenant de domaines divers, englobant des tâches telles que l'analyse de code, la détection de défauts et les principes de génie logiciel dans plusieurs langages de programmation. Contrairement aux bancs d'essai traditionnels, CodeMMLU évalue la capacité des modèles à raisonner sur le code plutôt qu'à le générer simplement, offrant des perspectives plus approfondies sur leur compréhension des concepts et des systèmes logiciels complexes. Notre évaluation approfondie révèle que même les modèles de pointe sont confrontés à des défis significatifs avec CodeMMLU, mettant en lumière des lacunes dans la compréhension au-delà de la génération de code. En soulignant la relation cruciale entre la compréhension du code et la génération efficace, CodeMMLU constitue une ressource essentielle pour faire progresser le développement de logiciels assisté par l'IA, visant en fin de compte à créer des assistants de codage plus fiables et capables.
English
Recent advancements in Code Large Language Models (CodeLLMs) have
predominantly focused on open-ended code generation tasks, often neglecting the
critical aspect of code understanding and comprehension. To bridge this gap, we
present CodeMMLU, a comprehensive multiple-choice question-answer benchmark
designed to evaluate the depth of software and code understanding in LLMs.
CodeMMLU includes over 10,000 questions sourced from diverse domains,
encompassing tasks such as code analysis, defect detection, and software
engineering principles across multiple programming languages. Unlike
traditional benchmarks, CodeMMLU assesses models's ability to reason about code
rather than merely generate it, providing deeper insights into their grasp of
complex software concepts and systems. Our extensive evaluation reveals that
even state-of-the-art models face significant challenges with CodeMMLU,
highlighting deficiencies in comprehension beyond code generation. By
underscoring the crucial relationship between code understanding and effective
generation, CodeMMLU serves as a vital resource for advancing AI-assisted
software development, ultimately aiming to create more reliable and capable
coding assistants.Summary
AI-Generated Summary