RUBRIC-ARROW: Modelagem de Recompensa por Rubrica Pontual Alternada para Pós-treinamento de LLM em Domínios Não Verificáveis

Resumo

A modelagem de recompensa pontual oferece sinais críticos para o pós-treinamento de LLMs, mas enfrenta dificuldades com a pontuação absoluta em contextos subjetivos e não verificáveis. Métodos baseados em rubricas lidam com essa questão ao decompor a avaliação em critérios explícitos, porém as abordagens existentes tipicamente dependem de LLMs de fronteira e sofrem com empates causados pela agregação booleana rígida. Apresentamos o RUBRIC-ARROW, uma estrutura alternada que treina conjuntamente um gerador de rubricas e um juiz condicionado por rubricas, cuja etapa de RL utiliza apenas dados de preferência pareados. Nosso método acopla uma regra de pontuação baseada em probabilidade que reduz empates com recompensas baseadas em preferência específicas de fase e um esquema alternado GRPO que, juntos, treinam o avaliador pontual. Experimentos extensivos mostram que o RUBRIC-ARROW alcança precisão competitiva na modelagem de recompensa e produz ganhos consistentes para o pós-treinamento de políticas downstream.

English

Pointwise reward modeling offers critical signals for LLM post-training, yet struggles with absolute scoring in subjective, non-verifiable settings. Rubric-based methods address this by decomposing evaluation into explicit criteria, but existing approaches typically depend on frontier LLMs and suffer from ties caused by hard Boolean aggregation. We present RUBRIC-ARROW, an alternating framework that jointly trains a rubric generator and a rubric-conditioned judge, with its RL stage using only pairwise preference data. Our method couples a probability-based scoring rule that reduces ties with phase-specific preference-based rewards and an alternating GRPO scheme that together train the pointwise evaluator. Extensive experiments show that RUBRIC-ARROW achieves competitive reward-modeling accuracy and yields consistent gains for downstream policy post-training.