CodeMMLU: Un banco de pruebas multi-tarea para evaluar las capacidades de comprensión de código de CodeLLMs

Resumen

Los avances recientes en Modelos de Lenguaje de Código Grande (CodeLLMs) han estado predominantemente centrados en tareas de generación de código de final abierto, a menudo descuidando el aspecto crítico de comprensión y entendimiento del código. Para cerrar esta brecha, presentamos CodeMMLU, un completo banco de pruebas de preguntas y respuestas de opción múltiple diseñado para evaluar la profundidad del entendimiento del software y código en LLMs. CodeMMLU incluye más de 10,000 preguntas provenientes de diversos dominios, abarcando tareas como análisis de código, detección de defectos y principios de ingeniería de software en múltiples lenguajes de programación. A diferencia de bancos de pruebas tradicionales, CodeMMLU evalúa la capacidad de los modelos para razonar sobre el código en lugar de simplemente generarlo, proporcionando una comprensión más profunda de su dominio de conceptos y sistemas de software complejos. Nuestra extensa evaluación revela que incluso los modelos de vanguardia enfrentan desafíos significativos con CodeMMLU, resaltando deficiencias en la comprensión más allá de la generación de código. Al subrayar la relación crucial entre la comprensión del código y la generación efectiva, CodeMMLU sirve como un recurso vital para avanzar en el desarrollo de software asistido por IA, con el objetivo último de crear asistentes de codificación más confiables y capaces.

English

Recent advancements in Code Large Language Models (CodeLLMs) have predominantly focused on open-ended code generation tasks, often neglecting the critical aspect of code understanding and comprehension. To bridge this gap, we present CodeMMLU, a comprehensive multiple-choice question-answer benchmark designed to evaluate the depth of software and code understanding in LLMs. CodeMMLU includes over 10,000 questions sourced from diverse domains, encompassing tasks such as code analysis, defect detection, and software engineering principles across multiple programming languages. Unlike traditional benchmarks, CodeMMLU assesses models's ability to reason about code rather than merely generate it, providing deeper insights into their grasp of complex software concepts and systems. Our extensive evaluation reveals that even state-of-the-art models face significant challenges with CodeMMLU, highlighting deficiencies in comprehension beyond code generation. By underscoring the crucial relationship between code understanding and effective generation, CodeMMLU serves as a vital resource for advancing AI-assisted software development, ultimately aiming to create more reliable and capable coding assistants.

CodeMMLU: Un banco de pruebas multi-tarea para evaluar las capacidades de comprensión de código de CodeLLMs

CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs

Resumen

Support