CodeCriticBench : Un Benchmark Holistique de Critique de Code pour les Grands Modèles de Langage
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models
February 23, 2025
Auteurs: Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
cs.AI
Résumé
La capacité de critique des modèles de langage de grande taille (LLMs) est essentielle pour les capacités de raisonnement, qui peuvent fournir des suggestions nécessaires (par exemple, des analyses détaillées et des retours constructifs). Par conséquent, la manière d'évaluer la capacité de critique des LLMs a suscité une grande attention, et plusieurs benchmarks de critique ont été proposés. Cependant, les benchmarks de critique existants présentent généralement les limitations suivantes : (1) Ils se concentrent sur des tâches de raisonnement diversifiées dans des domaines généraux et offrent une évaluation insuffisante des tâches de code (par exemple, ne couvrant que la tâche de génération de code), où la difficulté des requêtes est relativement faible (par exemple, les requêtes de code de CriticBench proviennent de Humaneval et MBPP). (2) Ils manquent d'une évaluation complète sous différentes dimensions. Pour répondre à ces limitations, nous introduisons un benchmark holistique de critique de code pour les LLMs, appelé CodeCriticBench. Plus précisément, notre CodeCriticBench inclut deux tâches de code principales (à savoir, la génération de code et les questions-réponses sur le code) avec des difficultés variées. En outre, les protocoles d'évaluation incluent une évaluation de critique de base et une évaluation de critique avancée pour différentes caractéristiques, où des listes de contrôle d'évaluation fines sont bien conçues pour les paramètres avancés. Enfin, nous menons des résultats expérimentaux approfondis sur les LLMs existants, qui démontrent l'efficacité de CodeCriticBench.
English
The critique capacity of Large Language Models (LLMs) is essential for
reasoning abilities, which can provide necessary suggestions (e.g., detailed
analysis and constructive feedback). Therefore, how to evaluate the critique
capacity of LLMs has drawn great attention and several critique benchmarks have
been proposed. However, existing critique benchmarks usually have the following
limitations: (1). Focusing on diverse reasoning tasks in general domains and
insufficient evaluation on code tasks (e.g., only covering code generation
task), where the difficulty of queries is relatively easy (e.g., the code
queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive
evaluation from different dimensions. To address these limitations, we
introduce a holistic code critique benchmark for LLMs called CodeCriticBench.
Specifically, our CodeCriticBench includes two mainstream code tasks (i.e.,
code generation and code QA) with different difficulties. Besides, the
evaluation protocols include basic critique evaluation and advanced critique
evaluation for different characteristics, where fine-grained evaluation
checklists are well-designed for advanced settings. Finally, we conduct
extensive experimental results of existing LLMs, which show the effectiveness
of CodeCriticBench.Summary
AI-Generated Summary