De Staart Achterna: Effectieve Rubric-gebaseerde Beloningsmodellering voor Post-Training van Grote Taalmodellen
Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training
September 25, 2025
Auteurs: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI
Samenvatting
Reinforcement fine-tuning (RFT) lijdt vaak onder beloningsoveroptimalisatie, waarbij een beleidsmodel de beloningssignalen manipuleert om hoge scores te behalen terwijl het outputs van lage kwaliteit produceert. Onze theoretische analyse toont aan dat de sleutel ligt in beloningsmisspecificatie in de staart van hoge beloningen: het onvermogen om betrouwbaar Uitstekende reacties te onderscheiden van slechts Goede reacties. Dit motiveert ons om ons te richten op het gebied van hoge beloningen. Dergelijke staartvoorbeelden zijn echter schaars onder het basis-LLM. Hoewel off-policy voorbeelden (bijvoorbeeld van sterkere modellen of herschrijvingen) gemakkelijker te verkrijgen zijn, leidt naïef trainen op deze voorbeelden tot een misspecificeerde beloning voor het beleid dat we willen afstemmen. Om dit aan te pakken, bestuderen we rubric-based beloningen. Door ontwerp kunnen rubrics gebruikmaken van off-policy voorbeelden terwijl ze ongevoelig blijven voor hun artefacten. Om rubrics te verkrijgen die de staart van hoge beloningen vastleggen, benadrukken we het belang van het onderscheiden van grote en diverse reacties, en introduceren we een workflow om dit idee te implementeren. We tonen empirisch aan dat rubric-based beloningen beloningsoveroptimalisatie aanzienlijk verminderen en effectieve post-trainingsverbeteringen van LLM's opleveren. Onze code is beschikbaar op https://github.com/Jun-Kai-Zhang/rubrics.git.
English
Reinforcement fine-tuning (RFT) often suffers from reward
over-optimization, where a policy model hacks the reward signals to achieve
high scores while producing low-quality outputs. Our theoretical analysis shows
that the key lies in reward misspecification at the high-reward tail: the
inability to reliably distinguish Excellent responses from merely Great ones.
This motivate us to focus on the high-reward region. However, such tail
examples are scarce under the base LLM. While off-policy exemplars (e.g. from
stronger models or rewrites) are easier to obtain, naively training on them
yields a misspecified reward for the policy we aim to align. To address this,
we study rubric-based rewards. By design, rubrics can leverage off-policy
examples while remaining insensitive to their artifacts. To elicit rubrics that
capture the high-reward tail, we highlight the importance of distinguishing
among great and diverse responses, and introduce a workflow to implement this
idea. We empirically demonstrate that rubric-based rewards substantially
mitigate reward over-optimization and deliver effective LLM post-training
improvements. Our code can be accessed at
https://github.com/Jun-Kai-Zhang/rubrics.git .