RubricBench: Allineamento delle rubriche generate da modelli con standard umani

Abstract

Con l'evoluzione dell'allineamento dei Large Language Model (LLM) da semplici completamenti a generazioni complesse e altamente sofisticate, i Modelli di Ricompensa si stanno sempre più orientando verso valutazioni guidate da rubriche per mitigare i bias superficiali. Tuttavia, la comunità manca di un benchmark unificato per valutare questo paradigma valutativo, poiché i benchmark esistenti sono privi sia della complessità discriminativa sia delle annotazioni di rubriche ground-truth necessarie per un'analisi rigorosa. Per colmare questa lacuna, introduciamo RubricBench, un benchmark curato con 1.147 confronti a coppie, progettato specificamente per valutare l'affidabilità della valutazione basata su rubriche. La nostra costruzione impiega una pipeline di filtraggio multidimensionale per individuare campioni difficili caratterizzati da complessità di input sfumata e bias superficiale fuorviante, arricchendo ciascuno con rubriche atomiche annotate da esperti, derivate rigorosamente dalle istruzioni. Esperimenti completi rivelano un divario sostanziale nelle capacità tra le rubriche annotate da esseri umani e quelle generate da modelli, indicando che anche i modelli all'avanguardia faticano a specificare autonomamente criteri di valutazione validi, rimanendo considerevolmente indietro rispetto alle prestazioni guidate dall'uomo.

English

As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.

RubricBench: Allineamento delle rubriche generate da modelli con standard umani

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Abstract

Support