IF-RewardBench: Een benchmark voor beoordelingsmodellen voor de evaluatie van instructie-opvolging

Samenvatting

Het volgen van instructies is een fundamentele capaciteit van grote taalmodellen (LLM's), waarvan de verbetering afhangt van schaalbare en nauwkeurige feedback van beoordelaarsmodellen. De betrouwbaarheid van huidige beoordelaarsmodellen bij het volgen van instructies blijft echter onderbelicht door verschillende tekortkomingen van bestaande meta-evaluatiebenchmarks, zoals onvoldoende datadekking en te vereenvoudigde paarsgewijze evaluatieparadigma's die niet aansluiten bij modeloptimalisatiescenario's. Daarom stellen wij IF-RewardBench voor, een uitgebreide meta-evaluatiebenchmark voor instructievolging die diverse instructie- en beperkingstypes dekt. Voor elke instructie construeren wij een voorkeursgrafiek die alle paarsgewijze voorkeuren tussen meerdere antwoorden bevat, gebaseerd op de kwaliteit van instructievolging. Dit ontwerp maakt een lijstgewijze evaluatiemethode mogelijk die het vermogen van beoordelaarsmodellen beoordeelt om meerdere antwoorden te rangschikken, wat essentieel is voor het begeleiden van modelafstemming. Uitgebreide experimenten met IF-RewardBench tonen significante tekortkomingen in huidige beoordelaarsmodellen aan en demonstreren dat onze benchmark een sterkere positieve correlatie bereikt met prestaties in downstreamtaken vergeleken met bestaande benchmarks. Onze code en data zijn beschikbaar op https://github.com/thu-coai/IF-RewardBench.

English

Instruction-following is a foundational capability of large language models (LLMs), with its improvement hinging on scalable and accurate feedback from judge models. However, the reliability of current judge models in instruction-following remains underexplored due to several deficiencies of existing meta-evaluation benchmarks, such as their insufficient data coverage and oversimplified pairwise evaluation paradigms that misalign with model optimization scenarios. To this end, we propose IF-RewardBench, a comprehensive meta-evaluation benchmark for instruction-following that covers diverse instruction and constraint types. For each instruction, we construct a preference graph containing all pairwise preferences among multiple responses based on instruction-following quality. This design enables a listwise evaluation paradigm that assesses the capabilities of judge models to rank multiple responses, which is essential in guiding model alignment. Extensive experiments on IF-RewardBench reveal significant deficiencies in current judge models and demonstrate that our benchmark achieves a stronger positive correlation with downstream task performance compared to existing benchmarks. Our codes and data are available at https://github.com/thu-coai/IF-RewardBench.

IF-RewardBench: Een benchmark voor beoordelingsmodellen voor de evaluatie van instructie-opvolging

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Samenvatting

Support