RubricBench: Abgleich von modellgenerierten Bewertungsrastern mit menschlichen Standards

Zusammenfassung

Mit der Weiterentwicklung des Alignment von Large Language Models (LLMs) von einfachen Textvervollständigungen hin zu komplexen, hochgradig anspruchsvollen Generierungen verlagern sich Reward Models zunehmend auf rubrikengestützte Evaluationen, um oberflächliche Verzerrungen zu reduzieren. Allerdings fehlt der Community ein einheitlicher Benchmark zur Bewertung dieses Evaluationsparadigmas, da bestehende Benchmarks weder die notwendige diskriminative Komplexität noch die erforderlichen Ground-Truth-Rubrikenannotationen für eine rigorose Analyse aufweisen. Um diese Lücke zu schließen, stellen wir RubricBench vor, einen kuratierten Benchmark mit 1.147 paarweisen Vergleichen, der speziell zur Bewertung der Zuverlässigkeit rubrikbasierter Evaluationen entwickelt wurde. Unser Erstellungsprozess nutzt eine mehrdimensionale Filterpipeline, um anspruchsvolle Beispiele mit nuancenreicher Eingabekomplexität und irreführender Oberflächenverzerrung zu identifizieren, und erweitert diese um expertengestützte, atomare Rubriken, die strikt aus den Instruktionen abgeleitet werden. Umfassende Experimente zeigen eine erhebliche Fähigkeitslücke zwischen humanannotierten und modellgenerierten Rubriken auf, was darauf hindeutet, dass selbst state-of-the-art Modelle Schwierigkeiten haben, autonom valide Bewertungskriterien zu spezifizieren, und dabei deutlich hinter der leitliniengestützten menschlichen Leistung zurückbleiben.

English

As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.

RubricBench: Abgleich von modellgenerierten Bewertungsrastern mit menschlichen Standards

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Zusammenfassung

Support