RealCritic: Verso una Valutazione Orientata all'Efficienza dei Modelli Linguistici
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
January 24, 2025
Autori: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Abstract
Le critiche sono importanti per migliorare le prestazioni dei Grandi Modelli di Linguaggio (LLM), consentendo sia l'auto-miglioramento che un feedback costruttivo per gli altri identificando difetti e suggerendo miglioramenti. Tuttavia, valutare le capacità critiche dei LLM rappresenta una sfida significativa a causa della natura aperta del compito. In questo lavoro, presentiamo un nuovo benchmark progettato per valutare le capacità critiche dei LLM. A differenza dei benchmark esistenti, che di solito funzionano in modo open-loop, il nostro approccio utilizza una metodologia closed-loop che valuta la qualità delle correzioni generate dalle critiche. Inoltre, il benchmark incorpora funzionalità come l'auto-critica, la critica incrociata e la critica iterativa, che sono cruciali per distinguere le capacità dei modelli di ragionamento avanzati da quelli più classici. Implementiamo questo benchmark utilizzando otto compiti di ragionamento impegnativi. Abbiamo fatto diverse scoperte interessanti. In primo luogo, nonostante dimostrino prestazioni comparabili nella generazione diretta di catene di pensiero, i LLM classici rimangono significativamente indietro rispetto al modello basato sul ragionamento avanzato o1-mini in tutti gli scenari di critica. In secondo lu luogo, nei contesti di auto-critica e critica iterativa, i LLM classici potrebbero addirittura avere prestazioni inferiori rispetto alle loro capacità di base. Speriamo che questo benchmark possa servire come risorsa preziosa per guidare futuri progressi. Il codice e i dati sono disponibili su https://github.com/tangzhy/RealCritic.
English
Critiques are important for enhancing the performance of Large Language
Models (LLMs), enabling both self-improvement and constructive feedback for
others by identifying flaws and suggesting improvements. However, evaluating
the critique capabilities of LLMs presents a significant challenge due to the
open-ended nature of the task. In this work, we introduce a new benchmark
designed to assess the critique capabilities of LLMs. Unlike existing
benchmarks, which typically function in an open-loop fashion, our approach
employs a closed-loop methodology that evaluates the quality of corrections
generated from critiques. Moreover, the benchmark incorporates features such as
self-critique, cross-critique, and iterative critique, which are crucial for
distinguishing the abilities of advanced reasoning models from more classical
ones. We implement this benchmark using eight challenging reasoning tasks. We
have several interesting findings. First, despite demonstrating comparable
performance in direct chain-of-thought generation, classical LLMs significantly
lag behind the advanced reasoning-based model o1-mini across all critique
scenarios. Second, in self-critique and iterative critique settings, classical
LLMs may even underperform relative to their baseline capabilities. We hope
that this benchmark will serve as a valuable resource to guide future
advancements. The code and data are available at
https://github.com/tangzhy/RealCritic.Summary
AI-Generated Summary