Perseguindo a Cauda: Modelagem Eficaz de Recompensas Baseada em Rubricas para Pós-Treinamento de Modelos de Linguagem de Grande Escala

Resumo

O ajuste fino por reforço (RFT) frequentemente sofre com a superotimização de recompensas, onde um modelo de política manipula os sinais de recompensa para alcançar pontuações altas enquanto produz resultados de baixa qualidade. Nossa análise teórica mostra que a chave está na má especificação da recompensa na cauda de alta recompensa: a incapacidade de distinguir de forma confiável respostas Excelentes de respostas meramente Boas. Isso nos motiva a focar na região de alta recompensa. No entanto, tais exemplos da cauda são escassos no modelo de linguagem de base (LLM). Embora exemplos fora da política (por exemplo, de modelos mais fortes ou reescritas) sejam mais fáceis de obter, o treinamento ingênuo neles resulta em uma recompensa mal especificada para a política que buscamos alinhar. Para resolver isso, estudamos recompensas baseadas em rubricas. Por design, as rubricas podem aproveitar exemplos fora da política enquanto permanecem insensíveis a seus artefatos. Para elicitar rubricas que capturem a cauda de alta recompensa, destacamos a importância de distinguir entre respostas excelentes e diversas, e introduzimos um fluxo de trabalho para implementar essa ideia. Demonstramos empiricamente que recompensas baseadas em rubricas mitigam substancialmente a superotimização de recompensas e proporcionam melhorias eficazes no pós-treinamento de LLMs. Nosso código pode ser acessado em https://github.com/Jun-Kai-Zhang/rubrics.git.

English

Reinforcement fine-tuning (RFT) often suffers from reward over-optimization, where a policy model hacks the reward signals to achieve high scores while producing low-quality outputs. Our theoretical analysis shows that the key lies in reward misspecification at the high-reward tail: the inability to reliably distinguish Excellent responses from merely Great ones. This motivate us to focus on the high-reward region. However, such tail examples are scarce under the base LLM. While off-policy exemplars (e.g. from stronger models or rewrites) are easier to obtain, naively training on them yields a misspecified reward for the policy we aim to align. To address this, we study rubric-based rewards. By design, rubrics can leverage off-policy examples while remaining insensitive to their artifacts. To elicit rubrics that capture the high-reward tail, we highlight the importance of distinguishing among great and diverse responses, and introduce a workflow to implement this idea. We empirically demonstrate that rubric-based rewards substantially mitigate reward over-optimization and deliver effective LLM post-training improvements. Our code can be accessed at https://github.com/Jun-Kai-Zhang/rubrics.git .

Perseguindo a Cauda: Modelagem Eficaz de Recompensas Baseada em Rubricas para Pós-Treinamento de Modelos de Linguagem de Grande Escala

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

Resumo

Support