ChatPaper.aiChatPaper

CodeCriticBench: Um Benchmark Holístico de Crítica de Código para Modelos de Linguagem de Grande Escala

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

February 23, 2025
Autores: Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
cs.AI

Resumo

A capacidade crítica dos Modelos de Linguagem de Grande Escala (LLMs) é essencial para habilidades de raciocínio, que podem fornecer sugestões necessárias (por exemplo, análises detalhadas e feedback construtivo). Portanto, como avaliar a capacidade crítica dos LLMs tem atraído grande atenção, e vários benchmarks de crítica foram propostos. No entanto, os benchmarks de crítica existentes geralmente apresentam as seguintes limitações: (1) Foco em tarefas de raciocínio diversificadas em domínios gerais e avaliação insuficiente em tarefas de código (por exemplo, cobrindo apenas a tarefa de geração de código), onde a dificuldade das consultas é relativamente fácil (por exemplo, as consultas de código do CriticBench são provenientes do Humaneval e MBPP). (2) Falta de avaliação abrangente de diferentes dimensões. Para abordar essas limitações, introduzimos um benchmark holístico de crítica de código para LLMs chamado CodeCriticBench. Especificamente, nosso CodeCriticBench inclui duas tarefas principais de código (ou seja, geração de código e QA de código) com diferentes níveis de dificuldade. Além disso, os protocolos de avaliação incluem avaliação básica de crítica e avaliação avançada de crítica para diferentes características, onde listas de verificação detalhadas são bem projetadas para configurações avançadas. Por fim, conduzimos extensos resultados experimentais de LLMs existentes, que mostram a eficácia do CodeCriticBench.
English
The critique capacity of Large Language Models (LLMs) is essential for reasoning abilities, which can provide necessary suggestions (e.g., detailed analysis and constructive feedback). Therefore, how to evaluate the critique capacity of LLMs has drawn great attention and several critique benchmarks have been proposed. However, existing critique benchmarks usually have the following limitations: (1). Focusing on diverse reasoning tasks in general domains and insufficient evaluation on code tasks (e.g., only covering code generation task), where the difficulty of queries is relatively easy (e.g., the code queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive evaluation from different dimensions. To address these limitations, we introduce a holistic code critique benchmark for LLMs called CodeCriticBench. Specifically, our CodeCriticBench includes two mainstream code tasks (i.e., code generation and code QA) with different difficulties. Besides, the evaluation protocols include basic critique evaluation and advanced critique evaluation for different characteristics, where fine-grained evaluation checklists are well-designed for advanced settings. Finally, we conduct extensive experimental results of existing LLMs, which show the effectiveness of CodeCriticBench.

Summary

AI-Generated Summary

PDF273February 25, 2025