OpenRubrics: Hacia la Generación Escalable de Rúbricas Sintéticas para el Modelado de Recompensas y la Alineación de Modelos de Lenguaje de Gran Escala
OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment
October 9, 2025
Autores: Tianci Liu, Ran Xu, Tony Yu, Ilgee Hong, Carl Yang, Tuo Zhao, Haoyu Wang
cs.AI
Resumen
El modelado de recompensas se encuentra en el núcleo del aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés). Sin embargo, la mayoría de los modelos de recompensa existentes dependen de juicios escalares o por pares que no logran capturar la naturaleza multifacética de las preferencias humanas. Estudios recientes han explorado el uso de rúbricas como recompensas (RaR, por sus siglas en inglés), que emplean criterios estructurados en lenguaje natural para capturar múltiples dimensiones de la calidad de las respuestas. No obstante, producir rúbricas que sean tanto confiables como escalables sigue siendo un desafío clave. En este trabajo, presentamos OpenRubrics, una colección diversa y a gran escala de pares (prompt, rúbrica) para entrenar modelos de generación de rúbricas y modelos de recompensa basados en rúbricas. Para obtener señales de evaluación discriminativas y comprehensivas, introducimos la Generación de Rúbricas Contrastivas (CRG, por sus siglas en inglés), que deriva tanto reglas estrictas (restricciones explícitas) como principios (cualidades implícitas) al contrastar respuestas preferidas y rechazadas. Además, mejoramos la confiabilidad al imponer consistencia en las etiquetas de preferencia mediante muestreo por rechazo para eliminar rúbricas ruidosas. En múltiples benchmarks de modelado de recompensas, nuestro modelo de recompensa basado en rúbricas, Rubric-RM, supera a líneas base de tamaño comparable en un 6.8%. Estas mejoras se trasladan a modelos de políticas en benchmarks de seguimiento de instrucciones y biomédicos. Nuestros resultados demuestran que las rúbricas proporcionan señales de alineación escalables que reducen la brecha entre la costosa evaluación humana y el modelado automatizado de recompensas, permitiendo un nuevo paradigma de alineación de LLM basado en principios.
English
Reward modeling lies at the core of reinforcement learning from human
feedback (RLHF), yet most existing reward models rely on scalar or pairwise
judgments that fail to capture the multifaceted nature of human preferences.
Recent studies have explored rubrics-as-rewards (RaR) that uses structured
natural language criteria that capture multiple dimensions of response quality.
However, producing rubrics that are both reliable and scalable remains a key
challenge. In this work, we introduce OpenRubrics, a diverse, large-scale
collection of (prompt, rubric) pairs for training rubric-generation and
rubric-based reward models. To elicit discriminative and comprehensive
evaluation signals, we introduce Contrastive Rubric Generation (CRG), which
derives both hard rules (explicit constraints) and principles (implicit
qualities) by contrasting preferred and rejected responses. We further improve
reliability by enforcing preference-label consistency via rejection sampling to
remove noisy rubrics. Across multiple reward-modeling benchmarks, our
rubric-based reward model, Rubric-RM, surpasses strong size-matched baselines
by 6.8%. These gains transfer to policy models on instruction-following and
biomedical benchmarks. Our results show that rubrics provide scalable alignment
signals that narrow the gap between costly human evaluation and automated
reward modeling, enabling a new principle-driven paradigm for LLM alignment.