RubricBench : Aligner les grilles d'évaluation générées par les modèles avec les standards humains

Résumé

Alors que l'alignement des Grands Modèles de Langage (LLM) évolue de simples complétions vers une génération complexe et hautement sophistiquée, les Modèles de Récompense s'orientent de plus en plus vers une évaluation guidée par des grilles critériées pour atténuer les biais de surface. Cependant, la communauté manque d'un benchmark unifié pour évaluer ce paradigme d'évaluation, car les benchmarks existants ne possèdent ni la complexité discriminative ni les annotations de grilles de référence nécessaires à une analyse rigoureuse. Pour combler cette lacune, nous présentons RubricBench, un benchmark organisé comprenant 1 147 comparaisons par paires, spécifiquement conçu pour évaluer la fiabilité de l'évaluation basée sur des grilles critériées. Notre processus de construction utilise un pipeline de filtration multidimensionnelle pour cibler des échantillons difficiles, présentant une complexité d'entrée nuancée et un biais de surface trompeur, en les enrichissant de grilles critériées atomiques, annotées par des experts et strictement dérivées des instructions. Des expériences approfondies révèlent un écart substantiel de capacité entre les grilles annotées par des humains et celles générées par des modèles, indiquant que même les modèles les plus avancés peinent à spécifier de manière autonome des critères d'évaluation valides, accusant un retard considérable par rapport aux performances guidées par l'humain.

English

As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.

RubricBench : Aligner les grilles d'évaluation générées par les modèles avec les standards humains

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Résumé

Support