OpenRubrics:報酬モデリングとLLMアラインメントのためのスケーラブルな合成ルーブリック生成に向けて
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
October 9, 2025
著者: Tianci Liu, Ran Xu, Tony Yu, Ilgee Hong, Carl Yang, Tuo Zhao, Haoyu Wang
cs.AI
要旨
報酬モデリングは、人間のフィードバックからの強化学習(RLHF)の中核をなすが、既存の報酬モデルの多くは、人間の選好の多面的な性質を捉えられないスカラー値やペアワイズ評価に依存している。最近の研究では、回答の質を多面的に捉える構造化された自然言語基準を用いる「ルーブリック・アズ・リワード(RaR)」が探求されている。しかし、信頼性と拡張性を兼ね備えたルーブリックの作成は依然として主要な課題である。本研究では、ルーブリック生成およびルーブリックベースの報酬モデルの訓練用に、多様で大規模な(プロンプト、ルーブリック)ペアのコレクションであるOpenRubricsを紹介する。識別的で包括的な評価信号を引き出すために、好ましい回答と拒否された回答を対比することで、明示的な制約(ハードルール)と暗黙的な質(原則)の両方を導出する「対照的ルーブリック生成(CRG)」を導入する。さらに、ノイズの多いルーブリックを除去するために、リジェクトサンプリングを通じて選好ラベルの一貫性を強化し、信頼性を向上させる。複数の報酬モデリングベンチマークにおいて、我々のルーブリックベースの報酬モデル「Rubric-RM」は、同等サイズのベースラインを6.8%上回る性能を示した。これらの利点は、指示追従や生物医学的ベンチマークにおけるポリシーモデルにも転移する。我々の結果は、ルーブリックが、コストのかかる人間評価と自動化された報酬モデリングのギャップを埋める拡張可能なアライメント信号を提供し、LLMアライメントの新しい原則駆動型パラダイムを可能にすることを示している。
English
Reward modeling lies at the core of reinforcement learning from human
feedback (RLHF), yet most existing reward models rely on scalar or pairwise
judgments that fail to capture the multifaceted nature of human preferences.
Recent studies have explored rubrics-as-rewards (RaR) that uses structured
natural language criteria that capture multiple dimensions of response quality.
However, producing rubrics that are both reliable and scalable remains a key
challenge. In this work, we introduce OpenRubrics, a diverse, large-scale
collection of (prompt, rubric) pairs for training rubric-generation and
rubric-based reward models. To elicit discriminative and comprehensive
evaluation signals, we introduce Contrastive Rubric Generation (CRG), which
derives both hard rules (explicit constraints) and principles (implicit
qualities) by contrasting preferred and rejected responses. We further improve
reliability by enforcing preference-label consistency via rejection sampling to
remove noisy rubrics. Across multiple reward-modeling benchmarks, our
rubric-based reward model, Rubric-RM, surpasses strong size-matched baselines
by 6.8%. These gains transfer to policy models on instruction-following and
biomedical benchmarks. Our results show that rubrics provide scalable alignment
signals that narrow the gap between costly human evaluation and automated
reward modeling, enabling a new principle-driven paradigm for LLM alignment.