CodeCriticBench: Een Holistische Benchmark voor Codekritiek voor Grote Taalmodellen
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models
February 23, 2025
Auteurs: Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
cs.AI
Samenvatting
De kritiekcapaciteit van Large Language Models (LLMs) is essentieel voor redeneervaardigheden, die noodzakelijke suggesties kunnen bieden (bijvoorbeeld gedetailleerde analyses en constructieve feedback). Daarom heeft de vraag hoe de kritiekcapaciteit van LLMs geëvalueerd kan worden veel aandacht getrokken, en zijn er verschillende kritiekbenchmarks voorgesteld. Bestaande kritiekbenchmarks hebben echter meestal de volgende beperkingen: (1) Ze richten zich op diverse redeneertaken in algemene domeinen en bieden onvoldoende evaluatie van codetaken (bijvoorbeeld door alleen codegeneratietaken te behandelen), waarbij de moeilijkheidsgraad van de queries relatief laag is (bijvoorbeeld zijn de codequeries van CriticBench afkomstig uit Humaneval en MBPP). (2) Ze missen een uitgebreide evaluatie vanuit verschillende dimensies. Om deze beperkingen aan te pakken, introduceren we een holistische codekritiekbenchmark voor LLMs genaamd CodeCriticBench. Specifiek omvat onze CodeCriticBench twee hoofdcode taken (namelijk codegeneratie en code QA) met verschillende moeilijkheidsgraden. Daarnaast omvatten de evaluatieprotocollen zowel basiskritiekevaluatie als geavanceerde kritiekevaluatie voor verschillende kenmerken, waarbij fijnmazige evaluatiechecklists zijn ontworpen voor geavanceerde instellingen. Tot slot voeren we uitgebreide experimentele resultaten uit met bestaande LLMs, die de effectiviteit van CodeCriticBench aantonen.
English
The critique capacity of Large Language Models (LLMs) is essential for
reasoning abilities, which can provide necessary suggestions (e.g., detailed
analysis and constructive feedback). Therefore, how to evaluate the critique
capacity of LLMs has drawn great attention and several critique benchmarks have
been proposed. However, existing critique benchmarks usually have the following
limitations: (1). Focusing on diverse reasoning tasks in general domains and
insufficient evaluation on code tasks (e.g., only covering code generation
task), where the difficulty of queries is relatively easy (e.g., the code
queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive
evaluation from different dimensions. To address these limitations, we
introduce a holistic code critique benchmark for LLMs called CodeCriticBench.
Specifically, our CodeCriticBench includes two mainstream code tasks (i.e.,
code generation and code QA) with different difficulties. Besides, the
evaluation protocols include basic critique evaluation and advanced critique
evaluation for different characteristics, where fine-grained evaluation
checklists are well-designed for advanced settings. Finally, we conduct
extensive experimental results of existing LLMs, which show the effectiveness
of CodeCriticBench.Summary
AI-Generated Summary