ChatPaper.aiChatPaper

OpenRubrics: Rumo à Geração Escalável de Rubricas Sintéticas para Modelagem de Recompensas e Alinhamento de LLMs

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

October 9, 2025
Autores: Tianci Liu, Ran Xu, Tony Yu, Ilgee Hong, Carl Yang, Tuo Zhao, Haoyu Wang
cs.AI

Resumo

A modelagem de recompensas está no cerne do aprendizado por reforço com feedback humano (RLHF), mas a maioria dos modelos de recompensa existentes depende de julgamentos escalares ou pareados que não capturam a natureza multifacetada das preferências humanas. Estudos recentes exploraram rubricas como recompensas (RaR), que utilizam critérios estruturados em linguagem natural para capturar múltiplas dimensões da qualidade da resposta. No entanto, produzir rubricas que sejam confiáveis e escaláveis continua sendo um desafio fundamental. Neste trabalho, apresentamos o OpenRubrics, uma coleção diversificada e em larga escala de pares (prompt, rubrica) para treinar modelos de geração de rubricas e modelos de recompensa baseados em rubricas. Para elicitar sinais de avaliação discriminativos e abrangentes, introduzimos a Geração de Rubricas Contrastivas (CRG), que deriva tanto regras rígidas (restrições explícitas) quanto princípios (qualidades implícitas) ao contrastar respostas preferidas e rejeitadas. Aumentamos ainda mais a confiabilidade ao impor consistência nos rótulos de preferência por meio de amostragem por rejeição para remover rubricas ruidosas. Em vários benchmarks de modelagem de recompensas, nosso modelo de recompensa baseado em rubricas, Rubric-RM, supera baselines de tamanho equivalente em 6,8%. Esses ganhos se transferem para modelos de política em benchmarks de seguimento de instruções e biomédicos. Nossos resultados mostram que as rubricas fornecem sinais de alinhamento escaláveis que reduzem a lacuna entre a avaliação humana custosa e a modelagem automatizada de recompensas, permitindo um novo paradigma de alinhamento de LLMs orientado por princípios.
English
Reward modeling lies at the core of reinforcement learning from human feedback (RLHF), yet most existing reward models rely on scalar or pairwise judgments that fail to capture the multifaceted nature of human preferences. Recent studies have explored rubrics-as-rewards (RaR) that uses structured natural language criteria that capture multiple dimensions of response quality. However, producing rubrics that are both reliable and scalable remains a key challenge. In this work, we introduce OpenRubrics, a diverse, large-scale collection of (prompt, rubric) pairs for training rubric-generation and rubric-based reward models. To elicit discriminative and comprehensive evaluation signals, we introduce Contrastive Rubric Generation (CRG), which derives both hard rules (explicit constraints) and principles (implicit qualities) by contrasting preferred and rejected responses. We further improve reliability by enforcing preference-label consistency via rejection sampling to remove noisy rubrics. Across multiple reward-modeling benchmarks, our rubric-based reward model, Rubric-RM, surpasses strong size-matched baselines by 6.8%. These gains transfer to policy models on instruction-following and biomedical benchmarks. Our results show that rubrics provide scalable alignment signals that narrow the gap between costly human evaluation and automated reward modeling, enabling a new principle-driven paradigm for LLM alignment.
PDF72October 10, 2025