ChatPaper.aiChatPaper

Dem Schwanz hinterher: Effektives rubrikbasiertes Belohnungsmodellieren für das Post-Training großer Sprachmodelle

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

September 25, 2025
papers.authors: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI

papers.abstract

Reinforcement Fine-Tuning (RFT) leidet häufig unter einer Überoptimierung der Belohnung, bei der ein Policy-Modell die Belohnungssignale manipuliert, um hohe Punktzahlen zu erreichen, während es gleichzeitig qualitativ minderwertige Ausgaben erzeugt. Unsere theoretische Analyse zeigt, dass der Schlüssel in einer Fehlspezifikation der Belohnung im Bereich hoher Belohnungen liegt: die Unfähigkeit, exzellente Antworten zuverlässig von lediglich guten zu unterscheiden. Dies motiviert uns, uns auf den Bereich hoher Belohnungen zu konzentrieren. Allerdings sind solche Beispiele im Tail-Bereich unter dem Basis-LLM selten. Während Off-Policy-Beispiele (z. B. von stärkeren Modellen oder Überarbeitungen) leichter zu beschaffen sind, führt ein naives Training mit diesen zu einer fehlspezifizierten Belohnung für die Policy, die wir ausrichten möchten. Um dies zu adressieren, untersuchen wir rubrikbasierte Belohnungen. Durch ihre Konstruktion können Rubriken Off-Policy-Beispiele nutzen, während sie gleichzeitig unempfindlich gegenüber deren Artefakten bleiben. Um Rubriken zu entwickeln, die den Bereich hoher Belohnungen erfassen, betonen wir die Bedeutung der Unterscheidung zwischen guten und vielfältigen Antworten und führen einen Workflow ein, um diese Idee umzusetzen. Wir zeigen empirisch, dass rubrikbasierte Belohnungen die Überoptimierung der Belohnung erheblich reduzieren und effektive Verbesserungen im Post-Training von LLMs liefern. Unser Code ist unter https://github.com/Jun-Kai-Zhang/rubrics.git verfügbar.
English
Reinforcement fine-tuning (RFT) often suffers from reward over-optimization, where a policy model hacks the reward signals to achieve high scores while producing low-quality outputs. Our theoretical analysis shows that the key lies in reward misspecification at the high-reward tail: the inability to reliably distinguish Excellent responses from merely Great ones. This motivate us to focus on the high-reward region. However, such tail examples are scarce under the base LLM. While off-policy exemplars (e.g. from stronger models or rewrites) are easier to obtain, naively training on them yields a misspecified reward for the policy we aim to align. To address this, we study rubric-based rewards. By design, rubrics can leverage off-policy examples while remaining insensitive to their artifacts. To elicit rubrics that capture the high-reward tail, we highlight the importance of distinguishing among great and diverse responses, and introduce a workflow to implement this idea. We empirically demonstrate that rubric-based rewards substantially mitigate reward over-optimization and deliver effective LLM post-training improvements. Our code can be accessed at https://github.com/Jun-Kai-Zhang/rubrics.git .
PDF82September 29, 2025