RubricBench: Alineación de Rúbricas Generadas por Modelos con Estándares Humanos

Resumen

A medida que la alineación de los Modelos de Lenguaje a Gran Escala (LLM) evoluciona de completaciones simples a generaciones complejas y altamente sofisticadas, los Modelos de Recompensa están virando cada vez más hacia la evaluación guiada por rúbricas para mitigar sesgos superficiales. Sin embargo, la comunidad carece de un benchmark unificado para evaluar este paradigma de evaluación, ya que los benchmarks existentes carecen tanto de la complejidad discriminatoria como de las anotaciones de rúbricas de referencia necesarias para un análisis riguroso. Para cerrar esta brecha, presentamos RubricBench, un benchmark curado con 1.147 comparaciones por pares diseñado específicamente para evaluar la fiabilidad de la evaluación basada en rúbricas. Nuestra construcción emplea un pipeline de filtración multidimensional para seleccionar muestras difíciles que presentan una complejidad de entrada matizada y un sesgo superficial engañoso, aumentando cada una con rúbricas atómicas anotadas por expertos y derivadas estrictamente de las instrucciones. Experimentos exhaustivos revelan una brecha sustancial de capacidad entre las rúbricas anotadas por humanos y las generadas por modelos, lo que indica que incluso los modelos más avanzados tienen dificultades para especificar autónomamente criterios de evaluación válidos, quedando considerablemente por detrás del rendimiento guiado por humanos.

English

As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.

RubricBench: Alineación de Rúbricas Generadas por Modelos con Estándares Humanos

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Resumen

Support