OpenRubrics: Naar schaalbare synthetische rubricageneratie voor beloningsmodellering en LLM-afstemming
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
October 9, 2025
Auteurs: Tianci Liu, Ran Xu, Tony Yu, Ilgee Hong, Carl Yang, Tuo Zhao, Haoyu Wang
cs.AI
Samenvatting
Beloningsmodellering ligt aan de kern van reinforcement learning met menselijke feedback (RLHF), maar de meeste bestaande beloningsmodellen vertrouwen op scalaire of paarsgewijze beoordelingen die de veelzijdige aard van menselijke voorkeuren niet vastleggen. Recente studies hebben rubrics-as-rewards (RaR) onderzocht, waarbij gestructureerde natuurlijke taalcriteria worden gebruikt die meerdere dimensies van responskwaliteit vastleggen. Het produceren van rubrics die zowel betrouwbaar als schaalbaar zijn, blijft echter een belangrijke uitdaging. In dit werk introduceren we OpenRubrics, een diverse, grootschalige verzameling van (prompt, rubric)-paren voor het trainen van rubric-generatie en rubric-gebaseerde beloningsmodellen. Om discriminerende en uitgebreide evaluatiesignalen op te roepen, introduceren we Contrastive Rubric Generation (CRG), dat zowel harde regels (expliciete beperkingen) als principes (impliciete kwaliteiten) afleidt door geprefereerde en afgewezen reacties te contrasteren. We verbeteren de betrouwbaarheid verder door consistentie van voorkeurslabels af te dwingen via rejection sampling om ruisrijke rubrics te verwijderen. Over meerdere beloningsmodelleringsbenchmarks overtreft ons rubric-gebaseerde beloningsmodel, Rubric-RM, sterke, qua grootte vergelijkbare baselines met 6,8%. Deze winsten worden overgedragen naar beleidsmodellen op benchmarks voor instructievolging en biomedische taken. Onze resultaten tonen aan dat rubrics schaalbare uitlijningssignalen bieden die de kloof tussen kostbare menselijke evaluatie en geautomatiseerde beloningsmodellering verkleinen, waardoor een nieuw principegedreven paradigma voor LLM-uitlijning mogelijk wordt.
English
Reward modeling lies at the core of reinforcement learning from human
feedback (RLHF), yet most existing reward models rely on scalar or pairwise
judgments that fail to capture the multifaceted nature of human preferences.
Recent studies have explored rubrics-as-rewards (RaR) that uses structured
natural language criteria that capture multiple dimensions of response quality.
However, producing rubrics that are both reliable and scalable remains a key
challenge. In this work, we introduce OpenRubrics, a diverse, large-scale
collection of (prompt, rubric) pairs for training rubric-generation and
rubric-based reward models. To elicit discriminative and comprehensive
evaluation signals, we introduce Contrastive Rubric Generation (CRG), which
derives both hard rules (explicit constraints) and principles (implicit
qualities) by contrasting preferred and rejected responses. We further improve
reliability by enforcing preference-label consistency via rejection sampling to
remove noisy rubrics. Across multiple reward-modeling benchmarks, our
rubric-based reward model, Rubric-RM, surpasses strong size-matched baselines
by 6.8%. These gains transfer to policy models on instruction-following and
biomedical benchmarks. Our results show that rubrics provide scalable alignment
signals that narrow the gap between costly human evaluation and automated
reward modeling, enabling a new principle-driven paradigm for LLM alignment.