RealCritic: Verso una Valutazione Orientata all'Efficienza dei Modelli Linguistici

Abstract

Le critiche sono importanti per migliorare le prestazioni dei Grandi Modelli di Linguaggio (LLM), consentendo sia l'auto-miglioramento che un feedback costruttivo per gli altri identificando difetti e suggerendo miglioramenti. Tuttavia, valutare le capacità critiche dei LLM rappresenta una sfida significativa a causa della natura aperta del compito. In questo lavoro, presentiamo un nuovo benchmark progettato per valutare le capacità critiche dei LLM. A differenza dei benchmark esistenti, che di solito funzionano in modo open-loop, il nostro approccio utilizza una metodologia closed-loop che valuta la qualità delle correzioni generate dalle critiche. Inoltre, il benchmark incorpora funzionalità come l'auto-critica, la critica incrociata e la critica iterativa, che sono cruciali per distinguere le capacità dei modelli di ragionamento avanzati da quelli più classici. Implementiamo questo benchmark utilizzando otto compiti di ragionamento impegnativi. Abbiamo fatto diverse scoperte interessanti. In primo luogo, nonostante dimostrino prestazioni comparabili nella generazione diretta di catene di pensiero, i LLM classici rimangono significativamente indietro rispetto al modello basato sul ragionamento avanzato o1-mini in tutti gli scenari di critica. In secondo lu luogo, nei contesti di auto-critica e critica iterativa, i LLM classici potrebbero addirittura avere prestazioni inferiori rispetto alle loro capacità di base. Speriamo che questo benchmark possa servire come risorsa preziosa per guidare futuri progressi. Il codice e i dati sono disponibili su https://github.com/tangzhy/RealCritic.

English

Critiques are important for enhancing the performance of Large Language Models (LLMs), enabling both self-improvement and constructive feedback for others by identifying flaws and suggesting improvements. However, evaluating the critique capabilities of LLMs presents a significant challenge due to the open-ended nature of the task. In this work, we introduce a new benchmark designed to assess the critique capabilities of LLMs. Unlike existing benchmarks, which typically function in an open-loop fashion, our approach employs a closed-loop methodology that evaluates the quality of corrections generated from critiques. Moreover, the benchmark incorporates features such as self-critique, cross-critique, and iterative critique, which are crucial for distinguishing the abilities of advanced reasoning models from more classical ones. We implement this benchmark using eight challenging reasoning tasks. We have several interesting findings. First, despite demonstrating comparable performance in direct chain-of-thought generation, classical LLMs significantly lag behind the advanced reasoning-based model o1-mini across all critique scenarios. Second, in self-critique and iterative critique settings, classical LLMs may even underperform relative to their baseline capabilities. We hope that this benchmark will serve as a valuable resource to guide future advancements. The code and data are available at https://github.com/tangzhy/RealCritic.

RealCritic: Verso una Valutazione Orientata all'Efficienza dei Modelli Linguistici

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Abstract

Support