OpenRubrics: Auf dem Weg zu skalierbarer synthetischer Rubrikenerstellung für Belohnungsmodellierung und LLM-Ausrichtung

papers.abstract

Die Modellierung von Belohnungen liegt im Kern des verstärkenden Lernens aus menschlichem Feedback (RLHF), doch die meisten bestehenden Belohnungsmodelle stützen sich auf skalare oder paarweise Bewertungen, die die vielschichtige Natur menschlicher Präferenzen nicht erfassen. Jüngste Studien haben Rubriken-als-Belohnungen (RaR) untersucht, die strukturierte natürliche Sprachkriterien verwenden, um mehrere Dimensionen der Antwortqualität zu erfassen. Die Erstellung von Rubriken, die sowohl zuverlässig als auch skalierbar sind, bleibt jedoch eine zentrale Herausforderung. In dieser Arbeit stellen wir OpenRubrics vor, eine vielfältige, groß angelegte Sammlung von (Prompt, Rubrik)-Paaren zur Schulung von Rubrik-Generierungs- und Rubrik-basierten Belohnungsmodellen. Um diskriminative und umfassende Bewertungssignale zu erzeugen, führen wir die Kontrastive Rubrik-Generierung (CRG) ein, die sowohl harte Regeln (explizite Einschränkungen) als auch Prinzipien (implizite Qualitäten) durch den Vergleich bevorzugter und abgelehnter Antworten ableitet. Wir verbessern die Zuverlässigkeit weiter, indem wir die Konsistenz von Präferenz-Labels durch Ablehnungsstichproben durchsetzen, um verrauschte Rubriken zu entfernen. Über mehrere Belohnungsmodellierungs-Benchmarks hinweg übertrifft unser Rubrik-basiertes Belohnungsmodell, Rubric-RM, starke, größenangepasste Baselines um 6,8 %. Diese Gewinne übertragen sich auf Politikmodelle bei Befolgung von Anweisungen und biomedizinischen Benchmarks. Unsere Ergebnisse zeigen, dass Rubriken skalierbare Ausrichtungssignale liefern, die die Lücke zwischen kostspieliger menschlicher Bewertung und automatisierter Belohnungsmodellierung verringern und ein neues prinzipiengetriebenes Paradigma für die Ausrichtung von LLM ermöglichen.

English

Reward modeling lies at the core of reinforcement learning from human feedback (RLHF), yet most existing reward models rely on scalar or pairwise judgments that fail to capture the multifaceted nature of human preferences. Recent studies have explored rubrics-as-rewards (RaR) that uses structured natural language criteria that capture multiple dimensions of response quality. However, producing rubrics that are both reliable and scalable remains a key challenge. In this work, we introduce OpenRubrics, a diverse, large-scale collection of (prompt, rubric) pairs for training rubric-generation and rubric-based reward models. To elicit discriminative and comprehensive evaluation signals, we introduce Contrastive Rubric Generation (CRG), which derives both hard rules (explicit constraints) and principles (implicit qualities) by contrasting preferred and rejected responses. We further improve reliability by enforcing preference-label consistency via rejection sampling to remove noisy rubrics. Across multiple reward-modeling benchmarks, our rubric-based reward model, Rubric-RM, surpasses strong size-matched baselines by 6.8%. These gains transfer to policy models on instruction-following and biomedical benchmarks. Our results show that rubrics provide scalable alignment signals that narrow the gap between costly human evaluation and automated reward modeling, enabling a new principle-driven paradigm for LLM alignment.

OpenRubrics: Auf dem Weg zu skalierbarer synthetischer Rubrikenerstellung für Belohnungsmodellierung und LLM-Ausrichtung

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

papers.abstract

Support