RUBRIC-ARROW: Modelado de Recompensa de Rúbrica Puntual Alternante para el Post-entrenamiento de LLM en Dominios No Verificables

Resumen

El modelado de recompensa puntual proporciona señales críticas para el post-entrenamiento de LLM, pero presenta dificultades con la puntuación absoluta en entornos subjetivos y no verificables. Los métodos basados en rúbricas abordan esto descomponiendo la evaluación en criterios explícitos, aunque los enfoques existentes suelen depender de LLMs de frontera y sufren empates causados por una agregación booleana rígida. Presentamos RUBRIC-ARROW, un marco alternante que entrena conjuntamente un generador de rúbricas y un juez condicionado por rúbricas, cuya etapa de RL utiliza únicamente datos de preferencia por pares. Nuestro método combina una regla de puntuación basada en probabilidad que reduce los empates con recompensas basadas en preferencias específicas de cada fase y un esquema GRPO alternante que, en conjunto, entrenan al evaluador puntual. Extensos experimentos muestran que RUBRIC-ARROW alcanza una precisión competitiva en el modelado de recompensas y produce ganancias consistentes para el post-entrenamiento de políticas posteriores.

English

Pointwise reward modeling offers critical signals for LLM post-training, yet struggles with absolute scoring in subjective, non-verifiable settings. Rubric-based methods address this by decomposing evaluation into explicit criteria, but existing approaches typically depend on frontier LLMs and suffer from ties caused by hard Boolean aggregation. We present RUBRIC-ARROW, an alternating framework that jointly trains a rubric generator and a rubric-conditioned judge, with its RL stage using only pairwise preference data. Our method couples a probability-based scoring rule that reduces ties with phase-specific preference-based rewards and an alternating GRPO scheme that together train the pointwise evaluator. Extensive experiments show that RUBRIC-ARROW achieves competitive reward-modeling accuracy and yields consistent gains for downstream policy post-training.