CodeCriticBench: Un Benchmark Integral de Crítica de Código para Modelos de Lenguaje a Gran Escala

Resumen

La capacidad crítica de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es fundamental para las habilidades de razonamiento, ya que puede proporcionar sugerencias necesarias (por ejemplo, análisis detallado y retroalimentación constructiva). Por lo tanto, cómo evaluar la capacidad crítica de los LLMs ha atraído gran atención y se han propuesto varios puntos de referencia (benchmarks) para la crítica. Sin embargo, los benchmarks de crítica existentes suelen presentar las siguientes limitaciones: (1) Se centran en tareas de razonamiento diversas en dominios generales y tienen una evaluación insuficiente en tareas de código (por ejemplo, solo cubren la tarea de generación de código), donde la dificultad de las consultas es relativamente baja (por ejemplo, las consultas de código en CriticBench provienen de Humaneval y MBPP). (2) Carecen de una evaluación integral desde diferentes dimensiones. Para abordar estas limitaciones, presentamos un benchmark holístico de crítica de código para LLMs llamado CodeCriticBench. Específicamente, nuestro CodeCriticBench incluye dos tareas principales de código (es decir, generación de código y preguntas y respuestas sobre código) con diferentes niveles de dificultad. Además, los protocolos de evaluación incluyen una evaluación básica de la crítica y una evaluación avanzada de la crítica para diferentes características, donde se han diseñado listas de verificación detalladas para configuraciones avanzadas. Finalmente, realizamos extensos resultados experimentales con LLMs existentes, que demuestran la efectividad de CodeCriticBench.

English

The critique capacity of Large Language Models (LLMs) is essential for reasoning abilities, which can provide necessary suggestions (e.g., detailed analysis and constructive feedback). Therefore, how to evaluate the critique capacity of LLMs has drawn great attention and several critique benchmarks have been proposed. However, existing critique benchmarks usually have the following limitations: (1). Focusing on diverse reasoning tasks in general domains and insufficient evaluation on code tasks (e.g., only covering code generation task), where the difficulty of queries is relatively easy (e.g., the code queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive evaluation from different dimensions. To address these limitations, we introduce a holistic code critique benchmark for LLMs called CodeCriticBench. Specifically, our CodeCriticBench includes two mainstream code tasks (i.e., code generation and code QA) with different difficulties. Besides, the evaluation protocols include basic critique evaluation and advanced critique evaluation for different characteristics, where fine-grained evaluation checklists are well-designed for advanced settings. Finally, we conduct extensive experimental results of existing LLMs, which show the effectiveness of CodeCriticBench.

CodeCriticBench: Un Benchmark Integral de Crítica de Código para Modelos de Lenguaje a Gran Escala

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Resumen

Support