ChatPaper.aiChatPaper

RealCritic : Vers une évaluation axée sur l'efficacité des critiques de modèles de langage

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

January 24, 2025
Auteurs: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI

Résumé

Les critiques sont importantes pour améliorer les performances des Modèles de Langage Géants (LLMs), permettant à la fois l'auto-amélioration et des retours constructifs pour les autres en identifiant les défauts et en suggérant des améliorations. Cependant, évaluer les capacités de critique des LLMs présente un défi significatif en raison de la nature ouverte de la tâche. Dans ce travail, nous introduisons un nouveau banc d'essai conçu pour évaluer les capacités de critique des LLMs. Contrairement aux bancs d'essai existants, qui fonctionnent généralement de manière en boucle ouverte, notre approche utilise une méthodologie en boucle fermée qui évalue la qualité des corrections générées à partir des critiques. De plus, le banc d'essai intègre des fonctionnalités telles que l'auto-critique, la critique croisée et la critique itérative, qui sont cruciales pour distinguer les capacités des modèles de raisonnement avancés des modèles plus classiques. Nous mettons en œuvre ce banc d'essai en utilisant huit tâches de raisonnement difficiles. Nous avons plusieurs résultats intéressants. Tout d'abord, malgré des performances comparables dans la génération directe de chaînes de pensée, les LLMs classiques accusent un retard significatif par rapport au modèle basé sur le raisonnement avancé o1-mini dans tous les scénarios de critique. Deuxièmement, dans les paramètres d'auto-critique et de critique itérative, les LLMs classiques peuvent même sous-performer par rapport à leurs capacités de base. Nous espérons que ce banc d'essai servira de ressource précieuse pour orienter les futures avancées. Le code et les données sont disponibles sur https://github.com/tangzhy/RealCritic.
English
Critiques are important for enhancing the performance of Large Language Models (LLMs), enabling both self-improvement and constructive feedback for others by identifying flaws and suggesting improvements. However, evaluating the critique capabilities of LLMs presents a significant challenge due to the open-ended nature of the task. In this work, we introduce a new benchmark designed to assess the critique capabilities of LLMs. Unlike existing benchmarks, which typically function in an open-loop fashion, our approach employs a closed-loop methodology that evaluates the quality of corrections generated from critiques. Moreover, the benchmark incorporates features such as self-critique, cross-critique, and iterative critique, which are crucial for distinguishing the abilities of advanced reasoning models from more classical ones. We implement this benchmark using eight challenging reasoning tasks. We have several interesting findings. First, despite demonstrating comparable performance in direct chain-of-thought generation, classical LLMs significantly lag behind the advanced reasoning-based model o1-mini across all critique scenarios. Second, in self-critique and iterative critique settings, classical LLMs may even underperform relative to their baseline capabilities. We hope that this benchmark will serve as a valuable resource to guide future advancements. The code and data are available at https://github.com/tangzhy/RealCritic.

Summary

AI-Generated Summary

PDF342January 27, 2025