of Code
大規模コード言語モデルのための包括的コード批評ベンチマーク:CodeCriticBench
Abstract
Large language models of code (Code LLMs) have demonstrated remarkable
capabilities in code generation and completion. However, their ability to
critique code, which involves identifying issues and suggesting improvements,
remains understudied. We introduce CodeCriticBench, a holistic benchmark for
evaluating Code LLMs' code critique capabilities. CodeCriticBench comprises
three key components: (1) a diverse set of real-world code snippets with
intentional issues spanning multiple programming languages and complexity
levels; (2) a taxonomy of code issues covering functional correctness,
readability, maintainability, and security; and (3) evaluation metrics that
assess both the identification of issues and the quality of suggested
improvements. We evaluate several state-of-the-art Code LLMs on
CodeCriticBench, revealing significant gaps in their code critique abilities.
Our findings highlight the need for further research into enhancing Code LLMs'
code critique capabilities, which is crucial for their effective deployment in
software development workflows.
要約
コード大規模言語モデル(Code LLM)は、コード生成や補完において顕著な能力を示してきた。しかし、コードの問題点を特定し改善を提案するコード批評能力については、まだ研究が十分に行われていない。本論文では、Code LLMのコード批評能力を評価するための包括的ベンチマークであるCodeCriticBenchを提案する。CodeCriticBenchは以下の3つの主要な要素で構成されている:(1) 複数のプログラミング言語と複雑さのレベルにわたる意図的な問題を含む多様な実世界のコードスニペット、(2) 機能的正確性、可読性、保守性、セキュリティを網羅するコード問題の分類体系、(3) 問題の特定と提案された改善の質の両方を評価する評価指標。我々は、いくつかの最先端のCode LLMをCodeCriticBenchで評価し、それらのコード批評能力に大きなギャップがあることを明らかにした。本研究の結果は、ソフトウェア開発ワークフローにおける効果的な展開のために、Code LLMのコード批評能力を向上させるためのさらなる研究の必要性を強調している。
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language
Models