CodeCriticBench: Un Benchmark Integral de Crítica de Código para Modelos de Lenguaje a Gran Escala
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models
February 23, 2025
Autores: Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
cs.AI
Resumen
La capacidad crítica de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es fundamental para las habilidades de razonamiento, ya que puede proporcionar sugerencias necesarias (por ejemplo, análisis detallado y retroalimentación constructiva). Por lo tanto, cómo evaluar la capacidad crítica de los LLMs ha atraído gran atención y se han propuesto varios puntos de referencia (benchmarks) para la crítica. Sin embargo, los benchmarks de crítica existentes suelen presentar las siguientes limitaciones: (1) Se centran en tareas de razonamiento diversas en dominios generales y tienen una evaluación insuficiente en tareas de código (por ejemplo, solo cubren la tarea de generación de código), donde la dificultad de las consultas es relativamente baja (por ejemplo, las consultas de código en CriticBench provienen de Humaneval y MBPP). (2) Carecen de una evaluación integral desde diferentes dimensiones. Para abordar estas limitaciones, presentamos un benchmark holístico de crítica de código para LLMs llamado CodeCriticBench. Específicamente, nuestro CodeCriticBench incluye dos tareas principales de código (es decir, generación de código y preguntas y respuestas sobre código) con diferentes niveles de dificultad. Además, los protocolos de evaluación incluyen una evaluación básica de la crítica y una evaluación avanzada de la crítica para diferentes características, donde se han diseñado listas de verificación detalladas para configuraciones avanzadas. Finalmente, realizamos extensos resultados experimentales con LLMs existentes, que demuestran la efectividad de CodeCriticBench.
English
The critique capacity of Large Language Models (LLMs) is essential for
reasoning abilities, which can provide necessary suggestions (e.g., detailed
analysis and constructive feedback). Therefore, how to evaluate the critique
capacity of LLMs has drawn great attention and several critique benchmarks have
been proposed. However, existing critique benchmarks usually have the following
limitations: (1). Focusing on diverse reasoning tasks in general domains and
insufficient evaluation on code tasks (e.g., only covering code generation
task), where the difficulty of queries is relatively easy (e.g., the code
queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive
evaluation from different dimensions. To address these limitations, we
introduce a holistic code critique benchmark for LLMs called CodeCriticBench.
Specifically, our CodeCriticBench includes two mainstream code tasks (i.e.,
code generation and code QA) with different difficulties. Besides, the
evaluation protocols include basic critique evaluation and advanced critique
evaluation for different characteristics, where fine-grained evaluation
checklists are well-designed for advanced settings. Finally, we conduct
extensive experimental results of existing LLMs, which show the effectiveness
of CodeCriticBench.Summary
AI-Generated Summary