IF-RewardBench: Benchmarking dei Modelli Giudice per la Valutazione del Rispetto delle Istruzioni

Abstract

La capacità di seguire le istruzioni è una competenza fondamentale dei grandi modelli linguistici (LLM), il cui miglioramento dipende da feedback scalabili e accurati forniti da modelli giudicanti. Tuttavia, l'affidabilità degli attuali modelli giudicanti nel seguire le istruzioni rimane poco esplorata a causa di diverse carenze dei benchmark di meta-valutazione esistenti, come la loro copertura dati insufficiente e i paradigmi di valutazione a coppie eccessivamente semplificati, che non si allineano agli scenari di ottimizzazione dei modelli. A tal fine, proponiamo IF-RewardBench, un benchmark completo di meta-valutazione per il seguire le istruzioni che copre diversi tipi di istruzioni e vincoli. Per ogni istruzione, costruiamo un grafo delle preferenze contenente tutte le preferenze a coppie tra più risposte basate sulla qualità del seguire le istruzioni. Questo design consente un paradigma di valutazione di tipo listwise che valuta le capacità dei modelli giudicanti di classificare più risposte, essenziale per guidare l'allineamento dei modelli. Esperimenti estesi su IF-RewardBench rivelano carenze significative negli attuali modelli giudicanti e dimostrano che il nostro benchmark raggiunge una correlazione positiva più forte con le prestazioni delle attività a valle rispetto ai benchmark esistenti. I nostri codici e dati sono disponibili su https://github.com/thu-coai/IF-RewardBench.

English

Instruction-following is a foundational capability of large language models (LLMs), with its improvement hinging on scalable and accurate feedback from judge models. However, the reliability of current judge models in instruction-following remains underexplored due to several deficiencies of existing meta-evaluation benchmarks, such as their insufficient data coverage and oversimplified pairwise evaluation paradigms that misalign with model optimization scenarios. To this end, we propose IF-RewardBench, a comprehensive meta-evaluation benchmark for instruction-following that covers diverse instruction and constraint types. For each instruction, we construct a preference graph containing all pairwise preferences among multiple responses based on instruction-following quality. This design enables a listwise evaluation paradigm that assesses the capabilities of judge models to rank multiple responses, which is essential in guiding model alignment. Extensive experiments on IF-RewardBench reveal significant deficiencies in current judge models and demonstrate that our benchmark achieves a stronger positive correlation with downstream task performance compared to existing benchmarks. Our codes and data are available at https://github.com/thu-coai/IF-RewardBench.

IF-RewardBench: Benchmarking dei Modelli Giudice per la Valutazione del Rispetto delle Istruzioni

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Abstract

Support