ChatPaper.aiChatPaper

CodeMMLU: Um Benchmark Multi-Tarefa para Avaliar as Capacidades de Compreensão de Código dos CodeLLMs

CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs

October 2, 2024
Autores: Dung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui
cs.AI

Resumo

Avanços recentes em Modelos de Linguagem de Código Grande (CodeLLMs) têm se concentrado predominantemente em tarefas de geração de código aberto, frequentemente negligenciando o aspecto crítico de compreensão e entendimento de código. Para preencher essa lacuna, apresentamos o CodeMMLU, um abrangente benchmark de perguntas e respostas de múltipla escolha projetado para avaliar a profundidade do entendimento de software e código em LLMs. O CodeMMLU inclui mais de 10.000 perguntas provenientes de diversos domínios, abrangendo tarefas como análise de código, detecção de defeitos e princípios de engenharia de software em várias linguagens de programação. Ao contrário de benchmarks tradicionais, o CodeMMLU avalia a capacidade dos modelos de raciocinar sobre o código, em vez de simplesmente gerá-lo, fornecendo insights mais profundos sobre sua compreensão de conceitos e sistemas de software complexos. Nossa extensa avaliação revela que mesmo modelos de ponta enfrentam desafios significativos com o CodeMMLU, destacando deficiências na compreensão para além da geração de código. Ao enfatizar a relação crucial entre compreensão de código e geração eficaz, o CodeMMLU serve como um recurso vital para avançar no desenvolvimento de software assistido por IA, com o objetivo final de criar assistentes de codificação mais confiáveis e capazes.
English
Recent advancements in Code Large Language Models (CodeLLMs) have predominantly focused on open-ended code generation tasks, often neglecting the critical aspect of code understanding and comprehension. To bridge this gap, we present CodeMMLU, a comprehensive multiple-choice question-answer benchmark designed to evaluate the depth of software and code understanding in LLMs. CodeMMLU includes over 10,000 questions sourced from diverse domains, encompassing tasks such as code analysis, defect detection, and software engineering principles across multiple programming languages. Unlike traditional benchmarks, CodeMMLU assesses models's ability to reason about code rather than merely generate it, providing deeper insights into their grasp of complex software concepts and systems. Our extensive evaluation reveals that even state-of-the-art models face significant challenges with CodeMMLU, highlighting deficiencies in comprehension beyond code generation. By underscoring the crucial relationship between code understanding and effective generation, CodeMMLU serves as a vital resource for advancing AI-assisted software development, ultimately aiming to create more reliable and capable coding assistants.

Summary

AI-Generated Summary

PDF104November 16, 2024