ChatPaper.aiChatPaper

RealCritic: 言語モデルの効果主導評価に向けて

RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

January 24, 2025
著者: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI

要旨

大規模言語モデル(LLMs)の性能を向上させるためには、批評は重要です。これにより、欠陥を特定し改善策を提案することで、自己改善と他者への建設的フィードバックの両方が可能となります。しかし、LLMsの批評能力を評価することは、タスクのオープンエンド性により大きな課題があります。本研究では、LLMsの批評能力を評価するために設計された新しいベンチマークを紹介します。既存のベンチマークは通常オープンループ方式で機能するのに対し、当該手法は修正の品質を評価するクローズドループ手法を採用しています。さらに、このベンチマークには自己批評、クロス批評、反復批評などの機能が組み込まれており、高度な推論モデルと従来のモデルを区別する上で重要です。当該ベンチマークは、8つの難解な推論タスクを使用して実装されています。いくつか興味深い知見があります。まず、直接的な思考連鎖生成においては、古典的LLMsと比較して、全ての批評シナリオで高度な推論ベースのモデルo1-miniが著しく優れた性能を示していることです。第二に、自己批評や反復批評の設定では、古典的LLMsはベースラインの能力に比べて性能が低下することさえあります。このベンチマークが、将来の進歩を導く貴重なリソースとなることを期待しています。コードとデータはhttps://github.com/tangzhy/RealCritic で入手可能です。
English
Critiques are important for enhancing the performance of Large Language Models (LLMs), enabling both self-improvement and constructive feedback for others by identifying flaws and suggesting improvements. However, evaluating the critique capabilities of LLMs presents a significant challenge due to the open-ended nature of the task. In this work, we introduce a new benchmark designed to assess the critique capabilities of LLMs. Unlike existing benchmarks, which typically function in an open-loop fashion, our approach employs a closed-loop methodology that evaluates the quality of corrections generated from critiques. Moreover, the benchmark incorporates features such as self-critique, cross-critique, and iterative critique, which are crucial for distinguishing the abilities of advanced reasoning models from more classical ones. We implement this benchmark using eight challenging reasoning tasks. We have several interesting findings. First, despite demonstrating comparable performance in direct chain-of-thought generation, classical LLMs significantly lag behind the advanced reasoning-based model o1-mini across all critique scenarios. Second, in self-critique and iterative critique settings, classical LLMs may even underperform relative to their baseline capabilities. We hope that this benchmark will serve as a valuable resource to guide future advancements. The code and data are available at https://github.com/tangzhy/RealCritic.

Summary

AI-Generated Summary

PDF342January 27, 2025