CodeMMLU: Un banco de pruebas multi-tarea para evaluar las capacidades de comprensión de código de CodeLLMs
CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs
October 2, 2024
Autores: Dung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui
cs.AI
Resumen
Los avances recientes en Modelos de Lenguaje de Código Grande (CodeLLMs) han estado predominantemente centrados en tareas de generación de código de final abierto, a menudo descuidando el aspecto crítico de comprensión y entendimiento del código. Para cerrar esta brecha, presentamos CodeMMLU, un completo banco de pruebas de preguntas y respuestas de opción múltiple diseñado para evaluar la profundidad del entendimiento del software y código en LLMs. CodeMMLU incluye más de 10,000 preguntas provenientes de diversos dominios, abarcando tareas como análisis de código, detección de defectos y principios de ingeniería de software en múltiples lenguajes de programación. A diferencia de bancos de pruebas tradicionales, CodeMMLU evalúa la capacidad de los modelos para razonar sobre el código en lugar de simplemente generarlo, proporcionando una comprensión más profunda de su dominio de conceptos y sistemas de software complejos. Nuestra extensa evaluación revela que incluso los modelos de vanguardia enfrentan desafíos significativos con CodeMMLU, resaltando deficiencias en la comprensión más allá de la generación de código. Al subrayar la relación crucial entre la comprensión del código y la generación efectiva, CodeMMLU sirve como un recurso vital para avanzar en el desarrollo de software asistido por IA, con el objetivo último de crear asistentes de codificación más confiables y capaces.
English
Recent advancements in Code Large Language Models (CodeLLMs) have
predominantly focused on open-ended code generation tasks, often neglecting the
critical aspect of code understanding and comprehension. To bridge this gap, we
present CodeMMLU, a comprehensive multiple-choice question-answer benchmark
designed to evaluate the depth of software and code understanding in LLMs.
CodeMMLU includes over 10,000 questions sourced from diverse domains,
encompassing tasks such as code analysis, defect detection, and software
engineering principles across multiple programming languages. Unlike
traditional benchmarks, CodeMMLU assesses models's ability to reason about code
rather than merely generate it, providing deeper insights into their grasp of
complex software concepts and systems. Our extensive evaluation reveals that
even state-of-the-art models face significant challenges with CodeMMLU,
highlighting deficiencies in comprehension beyond code generation. By
underscoring the crucial relationship between code understanding and effective
generation, CodeMMLU serves as a vital resource for advancing AI-assisted
software development, ultimately aiming to create more reliable and capable
coding assistants.Summary
AI-Generated Summary