CodeMMLU: Многофункциональный бенчмарк для оценки способностей понимания кода моделями языковых моделей кода.
CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs
October 2, 2024
Авторы: Dung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui
cs.AI
Аннотация
Недавние достижения в области крупных языковых моделей для кода (CodeLLMs) в основном сосредоточены на задачах генерации кода без ограничений, часто упуская критически важный аспект понимания и осмысления кода. Для заполнения этого разрыва мы представляем CodeMMLU, комплексный бенчмарк вопросов-ответов с выбором ответа, разработанный для оценки глубины понимания программного обеспечения и кода в LLMs. CodeMMLU включает более 10 000 вопросов из различных областей, охватывая задачи, такие как анализ кода, обнаружение дефектов и принципы инженерии программного обеспечения на различных языках программирования. В отличие от традиционных бенчмарков, CodeMMLU оценивает способность моделей рассуждать о коде, а не просто генерировать его, предоставляя более глубокие понимание их владения сложными концепциями программного обеспечения и системами. Наше обширное исследование показывает, что даже передовые модели сталкиваются с серьезными проблемами с CodeMMLU, выявляя недостатки в понимании за пределами генерации кода. Подчеркивая важное взаимосвязь между пониманием кода и эффективной генерацией, CodeMMLU служит важным ресурсом для продвижения разработки программного обеспечения с помощью искусственного интеллекта, в конечном итоге нацеливаясь на создание более надежных и способных помощников по кодированию.
English
Recent advancements in Code Large Language Models (CodeLLMs) have
predominantly focused on open-ended code generation tasks, often neglecting the
critical aspect of code understanding and comprehension. To bridge this gap, we
present CodeMMLU, a comprehensive multiple-choice question-answer benchmark
designed to evaluate the depth of software and code understanding in LLMs.
CodeMMLU includes over 10,000 questions sourced from diverse domains,
encompassing tasks such as code analysis, defect detection, and software
engineering principles across multiple programming languages. Unlike
traditional benchmarks, CodeMMLU assesses models's ability to reason about code
rather than merely generate it, providing deeper insights into their grasp of
complex software concepts and systems. Our extensive evaluation reveals that
even state-of-the-art models face significant challenges with CodeMMLU,
highlighting deficiencies in comprehension beyond code generation. By
underscoring the crucial relationship between code understanding and effective
generation, CodeMMLU serves as a vital resource for advancing AI-assisted
software development, ultimately aiming to create more reliable and capable
coding assistants.Summary
AI-Generated Summary