OpenRubrics: Verso una Generazione Scalabile di Griglie Valutative Sintetiche per la Modellazione delle Ricompense e l'Allineamento dei Modelli Linguistici
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
October 9, 2025
Autori: Tianci Liu, Ran Xu, Tony Yu, Ilgee Hong, Carl Yang, Tuo Zhao, Haoyu Wang
cs.AI
Abstract
La modellazione delle ricompense è al centro dell'apprendimento per rinforzo con feedback umano (RLHF), tuttavia la maggior parte dei modelli di ricompensa esistenti si basa su giudizi scalari o a coppie che non riescono a catturare la natura multifaccettata delle preferenze umane. Studi recenti hanno esplorato l'uso di rubriche come ricompense (RaR), che utilizzano criteri strutturati in linguaggio naturale per catturare molteplici dimensioni della qualità delle risposte. Tuttavia, produrre rubriche che siano sia affidabili che scalabili rimane una sfida chiave. In questo lavoro, introduciamo OpenRubrics, una raccolta diversificata e su larga scala di coppie (prompt, rubrica) per addestrare modelli di generazione di rubriche e modelli di ricompensa basati su rubriche. Per ottenere segnali di valutazione discriminativi e completi, introduciamo la Generazione di Rubriche Contrastive (CRG), che deriva sia regole rigide (vincoli espliciti) che principi (qualità implicite) confrontando risposte preferite e rifiutate. Miglioriamo ulteriormente l'affidabilità applicando la coerenza delle etichette di preferenza tramite campionamento per rifiuto per rimuovere rubriche rumorose. Su più benchmark di modellazione delle ricompense, il nostro modello di ricompensa basato su rubriche, Rubric-RM, supera i forti baseline di dimensioni comparabili del 6,8%. Questi guadagni si trasferiscono ai modelli di policy su benchmark di seguimento delle istruzioni e biomedici. I nostri risultati dimostrano che le rubriche forniscono segnali di allineamento scalabili che riducono il divario tra la costosa valutazione umana e la modellazione automatica delle ricompense, abilitando un nuovo paradigma di allineamento dei LLM guidato da principi.
English
Reward modeling lies at the core of reinforcement learning from human
feedback (RLHF), yet most existing reward models rely on scalar or pairwise
judgments that fail to capture the multifaceted nature of human preferences.
Recent studies have explored rubrics-as-rewards (RaR) that uses structured
natural language criteria that capture multiple dimensions of response quality.
However, producing rubrics that are both reliable and scalable remains a key
challenge. In this work, we introduce OpenRubrics, a diverse, large-scale
collection of (prompt, rubric) pairs for training rubric-generation and
rubric-based reward models. To elicit discriminative and comprehensive
evaluation signals, we introduce Contrastive Rubric Generation (CRG), which
derives both hard rules (explicit constraints) and principles (implicit
qualities) by contrasting preferred and rejected responses. We further improve
reliability by enforcing preference-label consistency via rejection sampling to
remove noisy rubrics. Across multiple reward-modeling benchmarks, our
rubric-based reward model, Rubric-RM, surpasses strong size-matched baselines
by 6.8%. These gains transfer to policy models on instruction-following and
biomedical benchmarks. Our results show that rubrics provide scalable alignment
signals that narrow the gap between costly human evaluation and automated
reward modeling, enabling a new principle-driven paradigm for LLM alignment.