IF-RewardBench: Avaliação Comparativa de Modelos de Julgamento para a Avaliação do Seguimento de Instruções
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation
March 5, 2026
Autores: Bosi Wen, Yilin Niu, Cunxiang Wang, Xiaoying Ling, Ying Zhang, Pei Ke, Hongning Wang, Minlie Huang
cs.AI
Resumo
A capacidade de seguir instruções é uma competência fundamental dos grandes modelos de linguagem (LLMs), cuja melhoria depende de *feedback* escalável e preciso de modelos avaliadores. No entanto, a confiabilidade dos modelos avaliadores atuais na tarefa de seguir instruções permanece pouco explorada devido a várias deficiências dos *benchmarks* de meta-avaliação existentes, como sua cobertura de dados insuficiente e paradigmas de avaliação pareada excessivamente simplificados que não se alinham com os cenários de otimização de modelos. Para tal, propomos o IF-RewardBench, um *benchmark* abrangente de meta-avaliação para a capacidade de seguir instruções que cobre diversos tipos de instruções e restrições. Para cada instrução, construímos um grafo de preferência contendo todas as preferências pareadas entre múltiplas respostas com base na qualidade do seguimento da instrução. Este projeto permite um paradigma de avaliação por lista que avalia as capacidades dos modelos avaliadores para classificar múltiplas respostas, o que é essencial para orientar o alinhamento dos modelos. Experimentos extensivos no IF-RewardBench revelam deficiências significativas nos modelos avaliadores atuais e demonstram que o nosso *benchmark* alcança uma correlação positiva mais forte com o desempenho em tarefas subsequentes em comparação com *benchmarks* existentes. Os nossos códigos e dados estão disponíveis em https://github.com/thu-coai/IF-RewardBench.
English
Instruction-following is a foundational capability of large language models (LLMs), with its improvement hinging on scalable and accurate feedback from judge models. However, the reliability of current judge models in instruction-following remains underexplored due to several deficiencies of existing meta-evaluation benchmarks, such as their insufficient data coverage and oversimplified pairwise evaluation paradigms that misalign with model optimization scenarios. To this end, we propose IF-RewardBench, a comprehensive meta-evaluation benchmark for instruction-following that covers diverse instruction and constraint types. For each instruction, we construct a preference graph containing all pairwise preferences among multiple responses based on instruction-following quality. This design enables a listwise evaluation paradigm that assesses the capabilities of judge models to rank multiple responses, which is essential in guiding model alignment. Extensive experiments on IF-RewardBench reveal significant deficiencies in current judge models and demonstrate that our benchmark achieves a stronger positive correlation with downstream task performance compared to existing benchmarks. Our codes and data are available at https://github.com/thu-coai/IF-RewardBench.