Aprendizagem por Reforço Alternada para Modelagem de Recompensa Baseada em Rúbrica no Pós-Treinamento de LLMs Não Verificáveis
Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training
February 2, 2026
Autores: Ran Xu, Tianci Liu, Zihan Dong, Tony You, Ilgee Hong, Carl Yang, Linjun Zhang, Tao Zhao, Haoyu Wang
cs.AI
Resumo
Os modelos de recompensa padrão geralmente preveem pontuações escalares que não conseguem capturar a natureza multifacetada da qualidade da resposta em domínios não verificáveis, como a escrita criativa ou o seguimento de instruções de resposta aberta. Para superar essa limitação, propomos o Rubric-ARM, uma estrutura que otimiza conjuntamente um gerador de rubricas e um avaliador usando aprendizagem por reforço a partir de *feedback* de preferência. Diferente de métodos existentes que dependem de rubricas estáticas ou *pipelines* de treinamento desconectados, nossa abordagem trata a geração de rubricas como uma ação latente aprendida para maximizar a precisão do julgamento. Introduzimos uma estratégia de otimização alternada para mitigar a não estacionariedade das atualizações simultâneas, fornecendo uma análise teórica que demonstra como esse esquema reduz a variância do gradiente durante o treinamento. Experimentos extensivos mostram que o Rubric-ARM alcança desempenho de ponta entre as *baselines* em múltiplos *benchmarks* e melhora significativamente o alinhamento da política subsequente em configurações de aprendizagem por reforço offline e online.
English
Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.