RealCritic: Hacia una Evaluación Orientada por la Efectividad de Modelos de Lenguaje
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
January 24, 2025
Autores: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Resumen
Las críticas son importantes para mejorar el rendimiento de los Modelos de Lenguaje Grandes (LLMs), permitiendo tanto el auto-mejoramiento como la retroalimentación constructiva para otros al identificar fallos y sugerir mejoras. Sin embargo, evaluar las capacidades críticas de los LLMs presenta un desafío significativo debido a la naturaleza abierta de la tarea. En este trabajo, presentamos un nuevo punto de referencia diseñado para evaluar las capacidades críticas de los LLMs. A diferencia de los puntos de referencia existentes, que suelen funcionar de manera de circuito abierto, nuestro enfoque emplea una metodología de circuito cerrado que evalúa la calidad de las correcciones generadas a partir de las críticas. Además, el punto de referencia incorpora características como la auto-crítica, la crítica cruzada y la crítica iterativa, que son cruciales para distinguir las habilidades de los modelos de razonamiento avanzado de los más clásicos. Implementamos este punto de referencia utilizando ocho desafiantes tareas de razonamiento. Tenemos varios hallazgos interesantes. En primer lugar, a pesar de demostrar un rendimiento comparable en la generación directa de cadenas de pensamiento, los LLMs clásicos se rezagan significativamente detrás del modelo basado en razonamiento avanzado o1-mini en todos los escenarios de crítica. En segundo lugar, en configuraciones de auto-crítica y crítica iterativa, los LLMs clásicos pueden incluso rendir por debajo de sus capacidades de referencia. Esperamos que este punto de referencia sirva como un recurso valioso para orientar futuros avances. El código y los datos están disponibles en https://github.com/tangzhy/RealCritic.
English
Critiques are important for enhancing the performance of Large Language
Models (LLMs), enabling both self-improvement and constructive feedback for
others by identifying flaws and suggesting improvements. However, evaluating
the critique capabilities of LLMs presents a significant challenge due to the
open-ended nature of the task. In this work, we introduce a new benchmark
designed to assess the critique capabilities of LLMs. Unlike existing
benchmarks, which typically function in an open-loop fashion, our approach
employs a closed-loop methodology that evaluates the quality of corrections
generated from critiques. Moreover, the benchmark incorporates features such as
self-critique, cross-critique, and iterative critique, which are crucial for
distinguishing the abilities of advanced reasoning models from more classical
ones. We implement this benchmark using eight challenging reasoning tasks. We
have several interesting findings. First, despite demonstrating comparable
performance in direct chain-of-thought generation, classical LLMs significantly
lag behind the advanced reasoning-based model o1-mini across all critique
scenarios. Second, in self-critique and iterative critique settings, classical
LLMs may even underperform relative to their baseline capabilities. We hope
that this benchmark will serve as a valuable resource to guide future
advancements. The code and data are available at
https://github.com/tangzhy/RealCritic.Summary
AI-Generated Summary