À la poursuite de la queue : Modélisation efficace des récompenses basée sur des rubriques pour le post-entraînement des grands modèles de langage
Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training
September 25, 2025
papers.authors: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI
papers.abstract
Le réglage fin par renforcement (RFT) souffre souvent d'une sur-optimisation des récompenses, où un modèle de politique exploite les signaux de récompense pour atteindre des scores élevés tout en produisant des résultats de faible qualité. Notre analyse théorique montre que la clé réside dans la mauvaise spécification des récompenses dans la queue haute des récompenses : l'incapacité à distinguer de manière fiable les réponses Excellentes de celles simplement Grandes. Cela nous motive à nous concentrer sur la région des récompenses élevées. Cependant, de tels exemples de queue sont rares sous le modèle de langage de base (LLM). Bien que les exemples hors politique (par exemple, provenant de modèles plus puissants ou de réécritures) soient plus faciles à obtenir, un entraînement naïf sur ceux-ci produit une récompense mal spécifiée pour la politique que nous cherchons à aligner. Pour résoudre ce problème, nous étudions les récompenses basées sur des grilles d'évaluation. Par conception, les grilles d'évaluation peuvent exploiter des exemples hors politique tout en restant insensibles à leurs artefacts. Pour obtenir des grilles d'évaluation qui capturent la queue haute des récompenses, nous soulignons l'importance de distinguer parmi des réponses grandes et diversifiées, et introduisons un workflow pour mettre en œuvre cette idée. Nous démontrons empiriquement que les récompenses basées sur des grilles d'évaluation atténuent considérablement la sur-optimisation des récompenses et apportent des améliorations efficaces en post-entraînement des LLM. Notre code est accessible à l'adresse suivante : https://github.com/Jun-Kai-Zhang/rubrics.git.
English
Reinforcement fine-tuning (RFT) often suffers from reward
over-optimization, where a policy model hacks the reward signals to achieve
high scores while producing low-quality outputs. Our theoretical analysis shows
that the key lies in reward misspecification at the high-reward tail: the
inability to reliably distinguish Excellent responses from merely Great ones.
This motivate us to focus on the high-reward region. However, such tail
examples are scarce under the base LLM. While off-policy exemplars (e.g. from
stronger models or rewrites) are easier to obtain, naively training on them
yields a misspecified reward for the policy we aim to align. To address this,
we study rubric-based rewards. By design, rubrics can leverage off-policy
examples while remaining insensitive to their artifacts. To elicit rubrics that
capture the high-reward tail, we highlight the importance of distinguishing
among great and diverse responses, and introduce a workflow to implement this
idea. We empirically demonstrate that rubric-based rewards substantially
mitigate reward over-optimization and deliver effective LLM post-training
improvements. Our code can be accessed at
https://github.com/Jun-Kai-Zhang/rubrics.git .