RubricBench: Het Afstemmen van Door Modellen Gegenereerde Rubrics op Menselijke Standaarden

Samenvatting

Naarmate de afstemming van grote taalmodellen (LLM's) evolueert van eenvoudige tekstvoltooiing naar complexe, hoogwaardige generatie, verschuiven beloningsmodellen steeds meer naar rubriekgestuurde evaluatie om oppervlakkige vooroordelen te beperken. De onderzoeksgemeenschap beschikt echter over geen uniforme benchmark om dit evaluatieparadigma te toetsen, omdat bestaande benchmarks noch de vereiste onderscheidingscomplexiteit noch de gegronde rubrieksannotaties bevatten voor rigoureuze analyse. Om deze kloof te dichten, introduceren wij RubricBench: een zorgvuldig samengestelde benchmark met 1.147 paarsgewijze vergelijkingen, specifiek ontworpen om de betrouwbaarheid van rubriekgebaseerde evaluatie te beoordelen. Onze constructie hanteert een multidimensionaal filterproces om uitdagende voorbeelden te selecteren met genuanceerde invoercomplexiteit en misleidende oppervlakkige bias, aangevuld met door experts geannoteerde, atomische rubrieken die strikt uit instructies zijn afgeleid. Uitgebreide experimenten tonen een aanzienlijke kwaliteitskloof tussen door mensen geannoteerde en door modellen gegenereerde rubrieken, wat aangeeft dat zelfs state-of-the-art modellen moeite hebben om autonoom valide evaluatiecriteria te specificeren en daarmee aanzienlijk achterblijven bij door mensen geleide prestaties.

English

As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.

RubricBench: Het Afstemmen van Door Modellen Gegenereerde Rubrics op Menselijke Standaarden

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Samenvatting

Support