CodeCriticBench : Un Benchmark Holistique de Critique de Code pour les Grands Modèles de Langage

papers.abstract

La capacité de critique des modèles de langage de grande taille (LLMs) est essentielle pour les capacités de raisonnement, qui peuvent fournir des suggestions nécessaires (par exemple, des analyses détaillées et des retours constructifs). Par conséquent, la manière d'évaluer la capacité de critique des LLMs a suscité une grande attention, et plusieurs benchmarks de critique ont été proposés. Cependant, les benchmarks de critique existants présentent généralement les limitations suivantes : (1) Ils se concentrent sur des tâches de raisonnement diversifiées dans des domaines généraux et offrent une évaluation insuffisante des tâches de code (par exemple, ne couvrant que la tâche de génération de code), où la difficulté des requêtes est relativement faible (par exemple, les requêtes de code de CriticBench proviennent de Humaneval et MBPP). (2) Ils manquent d'une évaluation complète sous différentes dimensions. Pour répondre à ces limitations, nous introduisons un benchmark holistique de critique de code pour les LLMs, appelé CodeCriticBench. Plus précisément, notre CodeCriticBench inclut deux tâches de code principales (à savoir, la génération de code et les questions-réponses sur le code) avec des difficultés variées. En outre, les protocoles d'évaluation incluent une évaluation de critique de base et une évaluation de critique avancée pour différentes caractéristiques, où des listes de contrôle d'évaluation fines sont bien conçues pour les paramètres avancés. Enfin, nous menons des résultats expérimentaux approfondis sur les LLMs existants, qui démontrent l'efficacité de CodeCriticBench.

English

The critique capacity of Large Language Models (LLMs) is essential for reasoning abilities, which can provide necessary suggestions (e.g., detailed analysis and constructive feedback). Therefore, how to evaluate the critique capacity of LLMs has drawn great attention and several critique benchmarks have been proposed. However, existing critique benchmarks usually have the following limitations: (1). Focusing on diverse reasoning tasks in general domains and insufficient evaluation on code tasks (e.g., only covering code generation task), where the difficulty of queries is relatively easy (e.g., the code queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive evaluation from different dimensions. To address these limitations, we introduce a holistic code critique benchmark for LLMs called CodeCriticBench. Specifically, our CodeCriticBench includes two mainstream code tasks (i.e., code generation and code QA) with different difficulties. Besides, the evaluation protocols include basic critique evaluation and advanced critique evaluation for different characteristics, where fine-grained evaluation checklists are well-designed for advanced settings. Finally, we conduct extensive experimental results of existing LLMs, which show the effectiveness of CodeCriticBench.

CodeCriticBench : Un Benchmark Holistique de Critique de Code pour les Grands Modèles de Langage

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

papers.abstract

Support