RealCritic: К эффективно ориентированной оценке языковой модели Критики
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
January 24, 2025
Авторы: Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin
cs.AI
Аннотация
Критика важна для улучшения производительности больших языковых моделей (LLM), обеспечивая как самосовершенствование, так и конструктивную обратную связь для других путем выявления недостатков и предложения улучшений. Однако оценка возможностей критики LLM представляет собой значительное испытание из-за открытой природы задачи. В данной работе мы представляем новый бенчмарк, разработанный для оценки возможностей критики LLM. В отличие от существующих бенчмарков, которые обычно функционируют в открытом цикле, наш подход использует методику закрытого цикла, которая оценивает качество исправлений, сгенерированных из критик. Более того, бенчмарк включает функции, такие как самокритика, кросс-критика и итеративная критика, которые являются важными для различения способностей продвинутых моделей рассуждения от более классических. Мы реализуем этот бенчмарк, используя восемь сложных задач рассуждения. У нас есть несколько интересных результатов. Во-первых, несмотря на демонстрацию сопоставимой производительности в прямом порождении цепочки мыслей, классические LLM значительно отстают от продвинутой модели на основе рассуждений o1-mini во всех сценариях критики. Во-вторых, в настройках самокритики и итеративной критики классические LLM могут даже показывать худшую производительность по сравнению с их базовыми возможностями. Мы надеемся, что этот бенчмарк послужит ценным ресурсом для направления будущих усовершенствований. Код и данные доступны по ссылке https://github.com/tangzhy/RealCritic.
English
Critiques are important for enhancing the performance of Large Language
Models (LLMs), enabling both self-improvement and constructive feedback for
others by identifying flaws and suggesting improvements. However, evaluating
the critique capabilities of LLMs presents a significant challenge due to the
open-ended nature of the task. In this work, we introduce a new benchmark
designed to assess the critique capabilities of LLMs. Unlike existing
benchmarks, which typically function in an open-loop fashion, our approach
employs a closed-loop methodology that evaluates the quality of corrections
generated from critiques. Moreover, the benchmark incorporates features such as
self-critique, cross-critique, and iterative critique, which are crucial for
distinguishing the abilities of advanced reasoning models from more classical
ones. We implement this benchmark using eight challenging reasoning tasks. We
have several interesting findings. First, despite demonstrating comparable
performance in direct chain-of-thought generation, classical LLMs significantly
lag behind the advanced reasoning-based model o1-mini across all critique
scenarios. Second, in self-critique and iterative critique settings, classical
LLMs may even underperform relative to their baseline capabilities. We hope
that this benchmark will serve as a valuable resource to guide future
advancements. The code and data are available at
https://github.com/tangzhy/RealCritic.Summary
AI-Generated Summary