CodeCriticBench: Un Benchmark Olistico per la Valutazione del Codice nei Modelli Linguistici di Grandi Dimensioni
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models
February 23, 2025
Autori: Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
cs.AI
Abstract
La capacità critica dei Large Language Models (LLMs) è essenziale per le abilità di ragionamento, in quanto può fornire suggerimenti necessari (ad esempio, analisi dettagliate e feedback costruttivi). Pertanto, come valutare la capacità critica dei LLMs ha attirato grande attenzione e sono stati proposti diversi benchmark di critica. Tuttavia, i benchmark di critica esistenti presentano solitamente le seguenti limitazioni: (1) Si concentrano su compiti di ragionamento diversificati in domini generali e hanno una valutazione insufficiente sui compiti di codice (ad esempio, coprendo solo il task di generazione di codice), dove la difficoltà delle query è relativamente bassa (ad esempio, le query di codice di CriticBench provengono da Humaneval e MBPP). (2) Mancano di una valutazione completa da diverse dimensioni. Per affrontare queste limitazioni, introduciamo un benchmark olistico di critica del codice per i LLMs chiamato CodeCriticBench. Nello specifico, il nostro CodeCriticBench include due task principali di codice (ovvero, generazione di codice e QA sul codice) con diverse difficoltà. Inoltre, i protocolli di valutazione includono una valutazione critica di base e una valutazione critica avanzata per diverse caratteristiche, dove checklist di valutazione granulari sono ben progettate per le impostazioni avanzate. Infine, conduciamo ampi risultati sperimentali sui LLMs esistenti, che dimostrano l'efficacia di CodeCriticBench.
English
The critique capacity of Large Language Models (LLMs) is essential for
reasoning abilities, which can provide necessary suggestions (e.g., detailed
analysis and constructive feedback). Therefore, how to evaluate the critique
capacity of LLMs has drawn great attention and several critique benchmarks have
been proposed. However, existing critique benchmarks usually have the following
limitations: (1). Focusing on diverse reasoning tasks in general domains and
insufficient evaluation on code tasks (e.g., only covering code generation
task), where the difficulty of queries is relatively easy (e.g., the code
queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive
evaluation from different dimensions. To address these limitations, we
introduce a holistic code critique benchmark for LLMs called CodeCriticBench.
Specifically, our CodeCriticBench includes two mainstream code tasks (i.e.,
code generation and code QA) with different difficulties. Besides, the
evaluation protocols include basic critique evaluation and advanced critique
evaluation for different characteristics, where fine-grained evaluation
checklists are well-designed for advanced settings. Finally, we conduct
extensive experimental results of existing LLMs, which show the effectiveness
of CodeCriticBench.Summary
AI-Generated Summary