ChatPaper.aiChatPaper

Aprendizaje por Refuerzo Alternante para el Modelado de Recompensas Basado en Rúbricas en el Post-entrenamiento de Modelos de Lenguaje Grandes no Verificables

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

February 2, 2026
Autores: Ran Xu, Tianci Liu, Zihan Dong, Tony You, Ilgee Hong, Carl Yang, Linjun Zhang, Tao Zhao, Haoyu Wang
cs.AI

Resumen

Los modelos de recompensa estándar suelen predecir puntuaciones escalares que no logran capturar la naturaleza multifacética de la calidad de la respuesta en dominios no verificables, como la escritura creativa o el seguimiento de instrucciones de respuesta abierta. Para abordar esta limitación, proponemos Rubric-ARM, un marco de trabajo que optimiza conjuntamente un generador de rúbricas y un evaluador utilizando aprendizaje por refuerzo a partir de retroalimentación de preferencias. A diferencia de los métodos existentes que dependen de rúbricas estáticas o pipelines de entrenamiento disjuntos, nuestro enfoque trata la generación de rúbricas como una acción latente aprendida para maximizar la precisión del juicio. Introducimos una estrategia de optimización alternante para mitigar la no estacionariedad de las actualizaciones simultáneas, proporcionando un análisis teórico que demuestra cómo este programa reduce la varianza del gradiente durante el entrenamiento. Experimentos exhaustivos muestran que Rubric-ARM logra un rendimiento de vanguardia entre los métodos de referencia en múltiples benchmarks y mejora significativamente la alineación de políticas posteriores en entornos de aprendizaje por refuerzo tanto fuera de línea como en línea.
English
Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.
PDF132February 7, 2026