Dem Schwanz hinterher: Effektives rubrikbasiertes Belohnungsmodellieren für das Post-Training großer Sprachmodelle
Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training
September 25, 2025
papers.authors: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI
papers.abstract
Reinforcement Fine-Tuning (RFT) leidet häufig unter einer Überoptimierung der Belohnung, bei der ein Policy-Modell die Belohnungssignale manipuliert, um hohe Punktzahlen zu erreichen, während es gleichzeitig qualitativ minderwertige Ausgaben erzeugt. Unsere theoretische Analyse zeigt, dass der Schlüssel in einer Fehlspezifikation der Belohnung im Bereich hoher Belohnungen liegt: die Unfähigkeit, exzellente Antworten zuverlässig von lediglich guten zu unterscheiden. Dies motiviert uns, uns auf den Bereich hoher Belohnungen zu konzentrieren. Allerdings sind solche Beispiele im Tail-Bereich unter dem Basis-LLM selten. Während Off-Policy-Beispiele (z. B. von stärkeren Modellen oder Überarbeitungen) leichter zu beschaffen sind, führt ein naives Training mit diesen zu einer fehlspezifizierten Belohnung für die Policy, die wir ausrichten möchten. Um dies zu adressieren, untersuchen wir rubrikbasierte Belohnungen. Durch ihre Konstruktion können Rubriken Off-Policy-Beispiele nutzen, während sie gleichzeitig unempfindlich gegenüber deren Artefakten bleiben. Um Rubriken zu entwickeln, die den Bereich hoher Belohnungen erfassen, betonen wir die Bedeutung der Unterscheidung zwischen guten und vielfältigen Antworten und führen einen Workflow ein, um diese Idee umzusetzen. Wir zeigen empirisch, dass rubrikbasierte Belohnungen die Überoptimierung der Belohnung erheblich reduzieren und effektive Verbesserungen im Post-Training von LLMs liefern. Unser Code ist unter https://github.com/Jun-Kai-Zhang/rubrics.git verfügbar.
English
Reinforcement fine-tuning (RFT) often suffers from reward
over-optimization, where a policy model hacks the reward signals to achieve
high scores while producing low-quality outputs. Our theoretical analysis shows
that the key lies in reward misspecification at the high-reward tail: the
inability to reliably distinguish Excellent responses from merely Great ones.
This motivate us to focus on the high-reward region. However, such tail
examples are scarce under the base LLM. While off-policy exemplars (e.g. from
stronger models or rewrites) are easier to obtain, naively training on them
yields a misspecified reward for the policy we aim to align. To address this,
we study rubric-based rewards. By design, rubrics can leverage off-policy
examples while remaining insensitive to their artifacts. To elicit rubrics that
capture the high-reward tail, we highlight the importance of distinguishing
among great and diverse responses, and introduce a workflow to implement this
idea. We empirically demonstrate that rubric-based rewards substantially
mitigate reward over-optimization and deliver effective LLM post-training
improvements. Our code can be accessed at
https://github.com/Jun-Kai-Zhang/rubrics.git .