Inseguendo la Coda: Modellazione Efficace delle Ricompense Basata su Rubriche per il Post-Addestramento di Modelli Linguistici di Grande Scala
Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training
September 25, 2025
Autori: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI
Abstract
Il fine-tuning basato sul rinforzo (RFT) spesso soffre di un'eccessiva ottimizzazione della ricompensa, in cui un modello di policy manipola i segnali di ricompensa per ottenere punteggi elevati pur producendo output di bassa qualità. La nostra analisi teorica mostra che la chiave risiede nella specificazione errata della ricompensa nella coda ad alto valore: l'incapacità di distinguere in modo affidabile le risposte Eccellenti da quelle semplicemente Ottime. Ciò ci motiva a concentrarci sulla regione ad alta ricompensa. Tuttavia, tali esempi nella coda sono scarsi nel modello LLM di base. Sebbene gli esempi off-policy (ad esempio, provenienti da modelli più potenti o riscritture) siano più facili da ottenere, un addestramento ingenuo su di essi produce una ricompensa mal specificata per la policy che intendiamo allineare. Per affrontare questo problema, studiamo ricompense basate su rubriche. Per progettazione, le rubriche possono sfruttare esempi off-policy rimanendo insensibili ai loro artefatti. Per ottenere rubriche che catturino la coda ad alta ricompensa, sottolineiamo l'importanza di distinguere tra risposte ottime e diversificate e introduciamo un flusso di lavoro per implementare questa idea. Dimostriamo empiricamente che le ricompense basate su rubriche mitigano sostanzialmente l'eccessiva ottimizzazione della ricompensa e apportano miglioramenti efficaci nel post-addestramento degli LLM. Il nostro codice è accessibile all'indirizzo https://github.com/Jun-Kai-Zhang/rubrics.git.
English
Reinforcement fine-tuning (RFT) often suffers from reward
over-optimization, where a policy model hacks the reward signals to achieve
high scores while producing low-quality outputs. Our theoretical analysis shows
that the key lies in reward misspecification at the high-reward tail: the
inability to reliably distinguish Excellent responses from merely Great ones.
This motivate us to focus on the high-reward region. However, such tail
examples are scarce under the base LLM. While off-policy exemplars (e.g. from
stronger models or rewrites) are easier to obtain, naively training on them
yields a misspecified reward for the policy we aim to align. To address this,
we study rubric-based rewards. By design, rubrics can leverage off-policy
examples while remaining insensitive to their artifacts. To elicit rubrics that
capture the high-reward tail, we highlight the importance of distinguishing
among great and diverse responses, and introduce a workflow to implement this
idea. We empirically demonstrate that rubric-based rewards substantially
mitigate reward over-optimization and deliver effective LLM post-training
improvements. Our code can be accessed at
https://github.com/Jun-Kai-Zhang/rubrics.git .