IF-RewardBench : Évaluation comparative des modèles juges pour l'évaluation du suivi d'instructions

Résumé

Le suivi d'instructions est une capacité fondamentale des grands modèles de langage (LLM), dont l'amélioration dépend de retours d'évaluation évolutifs et précis provenant de modèles évaluateurs. Cependant, la fiabilité des modèles évaluateurs actuels pour le suivi d'instructions reste insuffisamment explorée en raison de plusieurs lacunes des benchmarks de méta-évaluation existants, telles que leur couverture de données insuffisante et leurs paradigmes d'évaluation par paires trop simplistes qui ne correspondent pas aux scénarios d'optimisation des modèles. Pour pallier cela, nous proposons IF-RewardBench, un benchmark complet de méta-évaluation pour le suivi d'instructions couvrant divers types d'instructions et de contraintes. Pour chaque instruction, nous construisons un graphe de préférences contenant toutes les préférences par paires entre plusieurs réponses, basées sur la qualité du suivi d'instructions. Cette conception permet un paradigme d'évaluation par liste qui évalue la capacité des modèles évaluateurs à classer plusieurs réponses, ce qui est essentiel pour guider l'alignement des modèles. Des expériences approfondies sur IF-RewardBench révèlent des déficiences significatives dans les modèles évaluateurs actuels et démontrent que notre benchmark atteint une corrélation positive plus forte avec les performances en aval que les benchmarks existants. Nos codes et données sont disponibles à l'adresse https://github.com/thu-coai/IF-RewardBench.

English

Instruction-following is a foundational capability of large language models (LLMs), with its improvement hinging on scalable and accurate feedback from judge models. However, the reliability of current judge models in instruction-following remains underexplored due to several deficiencies of existing meta-evaluation benchmarks, such as their insufficient data coverage and oversimplified pairwise evaluation paradigms that misalign with model optimization scenarios. To this end, we propose IF-RewardBench, a comprehensive meta-evaluation benchmark for instruction-following that covers diverse instruction and constraint types. For each instruction, we construct a preference graph containing all pairwise preferences among multiple responses based on instruction-following quality. This design enables a listwise evaluation paradigm that assesses the capabilities of judge models to rank multiple responses, which is essential in guiding model alignment. Extensive experiments on IF-RewardBench reveal significant deficiencies in current judge models and demonstrate that our benchmark achieves a stronger positive correlation with downstream task performance compared to existing benchmarks. Our codes and data are available at https://github.com/thu-coai/IF-RewardBench.

IF-RewardBench : Évaluation comparative des modèles juges pour l'évaluation du suivi d'instructions

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Résumé

Support