CodeCriticBench: Un Benchmark Olistico per la Valutazione del Codice nei Modelli Linguistici di Grandi Dimensioni

Abstract

La capacità critica dei Large Language Models (LLMs) è essenziale per le abilità di ragionamento, in quanto può fornire suggerimenti necessari (ad esempio, analisi dettagliate e feedback costruttivi). Pertanto, come valutare la capacità critica dei LLMs ha attirato grande attenzione e sono stati proposti diversi benchmark di critica. Tuttavia, i benchmark di critica esistenti presentano solitamente le seguenti limitazioni: (1) Si concentrano su compiti di ragionamento diversificati in domini generali e hanno una valutazione insufficiente sui compiti di codice (ad esempio, coprendo solo il task di generazione di codice), dove la difficoltà delle query è relativamente bassa (ad esempio, le query di codice di CriticBench provengono da Humaneval e MBPP). (2) Mancano di una valutazione completa da diverse dimensioni. Per affrontare queste limitazioni, introduciamo un benchmark olistico di critica del codice per i LLMs chiamato CodeCriticBench. Nello specifico, il nostro CodeCriticBench include due task principali di codice (ovvero, generazione di codice e QA sul codice) con diverse difficoltà. Inoltre, i protocolli di valutazione includono una valutazione critica di base e una valutazione critica avanzata per diverse caratteristiche, dove checklist di valutazione granulari sono ben progettate per le impostazioni avanzate. Infine, conduciamo ampi risultati sperimentali sui LLMs esistenti, che dimostrano l'efficacia di CodeCriticBench.

English

The critique capacity of Large Language Models (LLMs) is essential for reasoning abilities, which can provide necessary suggestions (e.g., detailed analysis and constructive feedback). Therefore, how to evaluate the critique capacity of LLMs has drawn great attention and several critique benchmarks have been proposed. However, existing critique benchmarks usually have the following limitations: (1). Focusing on diverse reasoning tasks in general domains and insufficient evaluation on code tasks (e.g., only covering code generation task), where the difficulty of queries is relatively easy (e.g., the code queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive evaluation from different dimensions. To address these limitations, we introduce a holistic code critique benchmark for LLMs called CodeCriticBench. Specifically, our CodeCriticBench includes two mainstream code tasks (i.e., code generation and code QA) with different difficulties. Besides, the evaluation protocols include basic critique evaluation and advanced critique evaluation for different characteristics, where fine-grained evaluation checklists are well-designed for advanced settings. Finally, we conduct extensive experimental results of existing LLMs, which show the effectiveness of CodeCriticBench.

CodeCriticBench: Un Benchmark Olistico per la Valutazione del Codice nei Modelli Linguistici di Grandi Dimensioni

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Abstract

Support