ChatPaper.aiChatPaper

De Staart Achterna: Effectieve Rubric-gebaseerde Beloningsmodellering voor Post-Training van Grote Taalmodellen

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

September 25, 2025
Auteurs: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI

Samenvatting

Reinforcement fine-tuning (RFT) lijdt vaak onder beloningsoveroptimalisatie, waarbij een beleidsmodel de beloningssignalen manipuleert om hoge scores te behalen terwijl het outputs van lage kwaliteit produceert. Onze theoretische analyse toont aan dat de sleutel ligt in beloningsmisspecificatie in de staart van hoge beloningen: het onvermogen om betrouwbaar Uitstekende reacties te onderscheiden van slechts Goede reacties. Dit motiveert ons om ons te richten op het gebied van hoge beloningen. Dergelijke staartvoorbeelden zijn echter schaars onder het basis-LLM. Hoewel off-policy voorbeelden (bijvoorbeeld van sterkere modellen of herschrijvingen) gemakkelijker te verkrijgen zijn, leidt naïef trainen op deze voorbeelden tot een misspecificeerde beloning voor het beleid dat we willen afstemmen. Om dit aan te pakken, bestuderen we rubric-based beloningen. Door ontwerp kunnen rubrics gebruikmaken van off-policy voorbeelden terwijl ze ongevoelig blijven voor hun artefacten. Om rubrics te verkrijgen die de staart van hoge beloningen vastleggen, benadrukken we het belang van het onderscheiden van grote en diverse reacties, en introduceren we een workflow om dit idee te implementeren. We tonen empirisch aan dat rubric-based beloningen beloningsoveroptimalisatie aanzienlijk verminderen en effectieve post-trainingsverbeteringen van LLM's opleveren. Onze code is beschikbaar op https://github.com/Jun-Kai-Zhang/rubrics.git.
English
Reinforcement fine-tuning (RFT) often suffers from reward over-optimization, where a policy model hacks the reward signals to achieve high scores while producing low-quality outputs. Our theoretical analysis shows that the key lies in reward misspecification at the high-reward tail: the inability to reliably distinguish Excellent responses from merely Great ones. This motivate us to focus on the high-reward region. However, such tail examples are scarce under the base LLM. While off-policy exemplars (e.g. from stronger models or rewrites) are easier to obtain, naively training on them yields a misspecified reward for the policy we aim to align. To address this, we study rubric-based rewards. By design, rubrics can leverage off-policy examples while remaining insensitive to their artifacts. To elicit rubrics that capture the high-reward tail, we highlight the importance of distinguishing among great and diverse responses, and introduce a workflow to implement this idea. We empirically demonstrate that rubric-based rewards substantially mitigate reward over-optimization and deliver effective LLM post-training improvements. Our code can be accessed at https://github.com/Jun-Kai-Zhang/rubrics.git .
PDF172September 29, 2025