IF-RewardBench: Evaluación Comparativa de Modelos Juez para la Valoración del Seguimiento de Instrucciones
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation
March 5, 2026
Autores: Bosi Wen, Yilin Niu, Cunxiang Wang, Xiaoying Ling, Ying Zhang, Pei Ke, Hongning Wang, Minlie Huang
cs.AI
Resumen
La capacidad de seguir instrucciones es una función fundamental de los grandes modelos de lenguaje (LLM), cuya mejora depende de comentarios escalables y precisos de modelos evaluadores. Sin embargo, la fiabilidad de los modelos evaluadores actuales en la tarea de seguimiento de instrucciones sigue sin explorarse adecuadamente debido a varias deficiencias de los benchmarks de meta-evaluación existentes, como su cobertura insuficiente de datos y paradigmas de evaluación por pares excesivamente simplificados que no se alinean con los escenarios de optimización de modelos. Para abordar este problema, proponemos IF-RewardBench, un benchmark integral de meta-evaluación para el seguimiento de instrucciones que cubre diversos tipos de instrucciones y restricciones. Para cada instrucción, construimos un grafo de preferencias que contiene todas las preferencias por pares entre múltiples respuestas basadas en la calidad del seguimiento de instrucciones. Este diseño permite un paradigma de evaluación por listas que valora la capacidad de los modelos evaluadores para clasificar múltiples respuestas, lo cual es esencial para guiar la alineación de modelos. Experimentos exhaustivos en IF-RewardBench revelan deficiencias significativas en los modelos evaluadores actuales y demuestran que nuestro benchmark logra una correlación positiva más fuerte con el rendimiento en tareas posteriores en comparación con los benchmarks existentes. Nuestros códigos y datos están disponibles en https://github.com/thu-coai/IF-RewardBench.
English
Instruction-following is a foundational capability of large language models (LLMs), with its improvement hinging on scalable and accurate feedback from judge models. However, the reliability of current judge models in instruction-following remains underexplored due to several deficiencies of existing meta-evaluation benchmarks, such as their insufficient data coverage and oversimplified pairwise evaluation paradigms that misalign with model optimization scenarios. To this end, we propose IF-RewardBench, a comprehensive meta-evaluation benchmark for instruction-following that covers diverse instruction and constraint types. For each instruction, we construct a preference graph containing all pairwise preferences among multiple responses based on instruction-following quality. This design enables a listwise evaluation paradigm that assesses the capabilities of judge models to rank multiple responses, which is essential in guiding model alignment. Extensive experiments on IF-RewardBench reveal significant deficiencies in current judge models and demonstrate that our benchmark achieves a stronger positive correlation with downstream task performance compared to existing benchmarks. Our codes and data are available at https://github.com/thu-coai/IF-RewardBench.