Perseguindo a Cauda: Modelagem Eficaz de Recompensas Baseada em Rubricas para Pós-Treinamento de Modelos de Linguagem de Grande Escala
Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training
September 25, 2025
Autores: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI
Resumo
O ajuste fino por reforço (RFT) frequentemente sofre com a superotimização de recompensas, onde um modelo de política manipula os sinais de recompensa para alcançar pontuações altas enquanto produz resultados de baixa qualidade. Nossa análise teórica mostra que a chave está na má especificação da recompensa na cauda de alta recompensa: a incapacidade de distinguir de forma confiável respostas Excelentes de respostas meramente Boas. Isso nos motiva a focar na região de alta recompensa. No entanto, tais exemplos da cauda são escassos no modelo de linguagem de base (LLM). Embora exemplos fora da política (por exemplo, de modelos mais fortes ou reescritas) sejam mais fáceis de obter, o treinamento ingênuo neles resulta em uma recompensa mal especificada para a política que buscamos alinhar. Para resolver isso, estudamos recompensas baseadas em rubricas. Por design, as rubricas podem aproveitar exemplos fora da política enquanto permanecem insensíveis a seus artefatos. Para elicitar rubricas que capturem a cauda de alta recompensa, destacamos a importância de distinguir entre respostas excelentes e diversas, e introduzimos um fluxo de trabalho para implementar essa ideia. Demonstramos empiricamente que recompensas baseadas em rubricas mitigam substancialmente a superotimização de recompensas e proporcionam melhorias eficazes no pós-treinamento de LLMs. Nosso código pode ser acessado em https://github.com/Jun-Kai-Zhang/rubrics.git.
English
Reinforcement fine-tuning (RFT) often suffers from reward
over-optimization, where a policy model hacks the reward signals to achieve
high scores while producing low-quality outputs. Our theoretical analysis shows
that the key lies in reward misspecification at the high-reward tail: the
inability to reliably distinguish Excellent responses from merely Great ones.
This motivate us to focus on the high-reward region. However, such tail
examples are scarce under the base LLM. While off-policy exemplars (e.g. from
stronger models or rewrites) are easier to obtain, naively training on them
yields a misspecified reward for the policy we aim to align. To address this,
we study rubric-based rewards. By design, rubrics can leverage off-policy
examples while remaining insensitive to their artifacts. To elicit rubrics that
capture the high-reward tail, we highlight the importance of distinguishing
among great and diverse responses, and introduce a workflow to implement this
idea. We empirically demonstrate that rubric-based rewards substantially
mitigate reward over-optimization and deliver effective LLM post-training
improvements. Our code can be accessed at
https://github.com/Jun-Kai-Zhang/rubrics.git .