IF-RewardBench: Бенчмарк для оценки моделей-судей при проверке следования инструкциям
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation
March 5, 2026
Авторы: Bosi Wen, Yilin Niu, Cunxiang Wang, Xiaoying Ling, Ying Zhang, Pei Ke, Hongning Wang, Minlie Huang
cs.AI
Аннотация
Следование инструкциям является фундаментальной способностью больших языковых моделей (LLM), улучшение которой зависит от масштабируемой и точной обратной связи от моделей-оценщиков. Однако надежность современных моделей-оценщиков в выполнении инструкций остается недостаточно изученной из-за ряда недостатков существующих мета-оценочных бенчмарков, таких как недостаточный охват данных и упрощенные парные парадигмы оценки, которые не соответствуют сценариям оптимизации моделей. Для решения этой проблемы мы предлагаем IF-RewardBench — комплексный мета-оценочный бенчмарк для выполнения инструкций, охватывающий разнообразные типы инструкций и ограничений. Для каждой инструкции мы строим граф предпочтений, содержащий все парные предпочтения между множеством ответов на основе качества следования инструкции. Такой подход обеспечивает списочную парадигму оценки, которая проверяет способности моделей-оценщиков ранжировать множественные ответы, что крайне важно для выравнивания моделей. Масштабные эксперименты на IF-RewardBench выявили значительные недостатки современных моделей-оценщиков и показали, что наш бенчмарк достигает более сильной положительной корреляции с производительностью на последующих задачах по сравнению с существующими аналогами. Наши код и данные доступны по адресу https://github.com/thu-coai/IF-RewardBench.
English
Instruction-following is a foundational capability of large language models (LLMs), with its improvement hinging on scalable and accurate feedback from judge models. However, the reliability of current judge models in instruction-following remains underexplored due to several deficiencies of existing meta-evaluation benchmarks, such as their insufficient data coverage and oversimplified pairwise evaluation paradigms that misalign with model optimization scenarios. To this end, we propose IF-RewardBench, a comprehensive meta-evaluation benchmark for instruction-following that covers diverse instruction and constraint types. For each instruction, we construct a preference graph containing all pairwise preferences among multiple responses based on instruction-following quality. This design enables a listwise evaluation paradigm that assesses the capabilities of judge models to rank multiple responses, which is essential in guiding model alignment. Extensive experiments on IF-RewardBench reveal significant deficiencies in current judge models and demonstrate that our benchmark achieves a stronger positive correlation with downstream task performance compared to existing benchmarks. Our codes and data are available at https://github.com/thu-coai/IF-RewardBench.