RealCritic: Rumo à Avaliação Orientada pela Efetividade do Modelo de Linguagem - Críticas
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
January 24, 2025
Autores: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Resumo
As críticas são importantes para aprimorar o desempenho de Modelos de Linguagem de Grande Escala (LLMs), permitindo tanto a auto melhoria quanto o feedback construtivo para outros, identificando falhas e sugerindo melhorias. No entanto, avaliar as capacidades de crítica dos LLMs apresenta um desafio significativo devido à natureza aberta da tarefa. Neste trabalho, introduzimos um novo benchmark projetado para avaliar as capacidades de crítica dos LLMs. Ao contrário dos benchmarks existentes, que normalmente funcionam de forma aberta, nossa abordagem emprega uma metodologia de circuito fechado que avalia a qualidade das correções geradas a partir das críticas. Além disso, o benchmark incorpora características como auto-crítica, crítica cruzada e crítica iterativa, que são cruciais para distinguir as habilidades de modelos de raciocínio avançados dos mais clássicos. Implementamos este benchmark usando oito desafiadoras tarefas de raciocínio. Temos várias descobertas interessantes. Primeiramente, apesar de demonstrar desempenho comparável na geração direta de cadeias de pensamento, os LLMs clássicos ficam significativamente atrás do modelo baseado em raciocínio avançado o1-mini em todos os cenários de crítica. Em segundo lugar, em configurações de auto-crítica e crítica iterativa, os LLMs clássicos podem até ter um desempenho inferior em relação às suas capacidades básicas. Esperamos que este benchmark sirva como um recurso valioso para orientar futuros avanços. O código e os dados estão disponíveis em https://github.com/tangzhy/RealCritic.
English
Critiques are important for enhancing the performance of Large Language
Models (LLMs), enabling both self-improvement and constructive feedback for
others by identifying flaws and suggesting improvements. However, evaluating
the critique capabilities of LLMs presents a significant challenge due to the
open-ended nature of the task. In this work, we introduce a new benchmark
designed to assess the critique capabilities of LLMs. Unlike existing
benchmarks, which typically function in an open-loop fashion, our approach
employs a closed-loop methodology that evaluates the quality of corrections
generated from critiques. Moreover, the benchmark incorporates features such as
self-critique, cross-critique, and iterative critique, which are crucial for
distinguishing the abilities of advanced reasoning models from more classical
ones. We implement this benchmark using eight challenging reasoning tasks. We
have several interesting findings. First, despite demonstrating comparable
performance in direct chain-of-thought generation, classical LLMs significantly
lag behind the advanced reasoning-based model o1-mini across all critique
scenarios. Second, in self-critique and iterative critique settings, classical
LLMs may even underperform relative to their baseline capabilities. We hope
that this benchmark will serve as a valuable resource to guide future
advancements. The code and data are available at
https://github.com/tangzhy/RealCritic.Summary
AI-Generated Summary