ChatPaper.aiChatPaper

Inseguendo la Coda: Modellazione Efficace delle Ricompense Basata su Rubriche per il Post-Addestramento di Modelli Linguistici di Grande Scala

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

September 25, 2025
Autori: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI

Abstract

Il fine-tuning basato sul rinforzo (RFT) spesso soffre di un'eccessiva ottimizzazione della ricompensa, in cui un modello di policy manipola i segnali di ricompensa per ottenere punteggi elevati pur producendo output di bassa qualità. La nostra analisi teorica mostra che la chiave risiede nella specificazione errata della ricompensa nella coda ad alto valore: l'incapacità di distinguere in modo affidabile le risposte Eccellenti da quelle semplicemente Ottime. Ciò ci motiva a concentrarci sulla regione ad alta ricompensa. Tuttavia, tali esempi nella coda sono scarsi nel modello LLM di base. Sebbene gli esempi off-policy (ad esempio, provenienti da modelli più potenti o riscritture) siano più facili da ottenere, un addestramento ingenuo su di essi produce una ricompensa mal specificata per la policy che intendiamo allineare. Per affrontare questo problema, studiamo ricompense basate su rubriche. Per progettazione, le rubriche possono sfruttare esempi off-policy rimanendo insensibili ai loro artefatti. Per ottenere rubriche che catturino la coda ad alta ricompensa, sottolineiamo l'importanza di distinguere tra risposte ottime e diversificate e introduciamo un flusso di lavoro per implementare questa idea. Dimostriamo empiricamente che le ricompense basate su rubriche mitigano sostanzialmente l'eccessiva ottimizzazione della ricompensa e apportano miglioramenti efficaci nel post-addestramento degli LLM. Il nostro codice è accessibile all'indirizzo https://github.com/Jun-Kai-Zhang/rubrics.git.
English
Reinforcement fine-tuning (RFT) often suffers from reward over-optimization, where a policy model hacks the reward signals to achieve high scores while producing low-quality outputs. Our theoretical analysis shows that the key lies in reward misspecification at the high-reward tail: the inability to reliably distinguish Excellent responses from merely Great ones. This motivate us to focus on the high-reward region. However, such tail examples are scarce under the base LLM. While off-policy exemplars (e.g. from stronger models or rewrites) are easier to obtain, naively training on them yields a misspecified reward for the policy we aim to align. To address this, we study rubric-based rewards. By design, rubrics can leverage off-policy examples while remaining insensitive to their artifacts. To elicit rubrics that capture the high-reward tail, we highlight the importance of distinguishing among great and diverse responses, and introduce a workflow to implement this idea. We empirically demonstrate that rubric-based rewards substantially mitigate reward over-optimization and deliver effective LLM post-training improvements. Our code can be accessed at https://github.com/Jun-Kai-Zhang/rubrics.git .
PDF172September 29, 2025