OpenRubrics : Vers une génération synthétique évolutive de grilles d'évaluation pour la modélisation des récompenses et l'alignement des LLM
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
October 9, 2025
papers.authors: Tianci Liu, Ran Xu, Tony Yu, Ilgee Hong, Carl Yang, Tuo Zhao, Haoyu Wang
cs.AI
papers.abstract
La modélisation des récompenses est au cœur de l'apprentissage par renforcement à partir de retours humains (RLHF), mais la plupart des modèles de récompense existants reposent sur des jugements scalaires ou par paires qui ne parviennent pas à capturer la nature multidimensionnelle des préférences humaines. Des études récentes ont exploré les "rubrics-as-rewards" (RaR), qui utilisent des critères structurés en langage naturel pour saisir plusieurs dimensions de la qualité des réponses. Cependant, la production de rubriques à la fois fiables et évolutives reste un défi majeur. Dans ce travail, nous présentons OpenRubrics, une collection diversifiée et à grande échelle de paires (prompt, rubrique) pour entraîner des modèles de génération de rubriques et des modèles de récompense basés sur des rubriques. Pour obtenir des signaux d'évaluation discriminants et complets, nous introduisons la Génération de Rubriques Contrastive (CRG), qui dérive à la fois des règles strictes (contraintes explicites) et des principes (qualités implicites) en contrastant les réponses préférées et rejetées. Nous améliorons encore la fiabilité en imposant une cohérence des étiquettes de préférence via un échantillonnage par rejet pour éliminer les rubriques bruyantes. Sur plusieurs benchmarks de modélisation des récompenses, notre modèle de récompense basé sur des rubriques, Rubric-RM, surpasse des modèles de référence de taille comparable de 6,8 %. Ces gains se transfèrent aux modèles de politique sur des benchmarks de suivi d'instructions et biomédicaux. Nos résultats montrent que les rubriques fournissent des signaux d'alignement évolutifs qui réduisent l'écart entre l'évaluation humaine coûteuse et la modélisation automatisée des récompenses, permettant un nouveau paradigme d'alignement des LLM axé sur les principes.
English
Reward modeling lies at the core of reinforcement learning from human
feedback (RLHF), yet most existing reward models rely on scalar or pairwise
judgments that fail to capture the multifaceted nature of human preferences.
Recent studies have explored rubrics-as-rewards (RaR) that uses structured
natural language criteria that capture multiple dimensions of response quality.
However, producing rubrics that are both reliable and scalable remains a key
challenge. In this work, we introduce OpenRubrics, a diverse, large-scale
collection of (prompt, rubric) pairs for training rubric-generation and
rubric-based reward models. To elicit discriminative and comprehensive
evaluation signals, we introduce Contrastive Rubric Generation (CRG), which
derives both hard rules (explicit constraints) and principles (implicit
qualities) by contrasting preferred and rejected responses. We further improve
reliability by enforcing preference-label consistency via rejection sampling to
remove noisy rubrics. Across multiple reward-modeling benchmarks, our
rubric-based reward model, Rubric-RM, surpasses strong size-matched baselines
by 6.8%. These gains transfer to policy models on instruction-following and
biomedical benchmarks. Our results show that rubrics provide scalable alignment
signals that narrow the gap between costly human evaluation and automated
reward modeling, enabling a new principle-driven paradigm for LLM alignment.