RubricBench: Alinhando Rubricas Geradas por Modelos com Padrões Humanos

Resumo

À medida que o alinhamento de Modelos de Linguagem de Grande Escala (LLMs) evolui de simples conclusões para gerações complexas e altamente sofisticadas, os Modelos de Recompensa estão a deslocar-se progressivamente para avaliações guiadas por rubricas para mitigar vieses superficiais. No entanto, a comunidade carece de um referencial unificado para avaliar este paradigma de avaliação, uma vez que os benchmarks existentes não possuem nem a complexidade discriminativa nem as anotações de rubricas com verdade real (ground-truth) necessárias para uma análise rigorosa. Para colmatar esta lacuna, introduzimos o RubricBench, um benchmark curado com 1.147 comparações pareadas especificamente concebido para avaliar a fiabilidade da avaliação baseada em rubricas. A nossa construção emprega um pipeline de filtração multidimensional para selecionar exemplos difíceis que apresentam complexidade de entrada subtil e viés superficial enganador, aumentando cada um com rubricas atómicas anotadas por especialistas e derivadas estritamente a partir de instruções. Experiências abrangentes revelam uma lacuna substancial de capacidade entre as rubricas anotadas por humanos e as geradas por modelos, indicando que mesmo os modelos mais avançados lutam para especificar autonomamente critérios de avaliação válidos, ficando consideravelmente aquém do desempenho guiado por humanos.

English

As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.

RubricBench: Alinhando Rubricas Geradas por Modelos com Padrões Humanos

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Resumo

Support