Jenseits von GRPO und On-Policy-Destillation: Ein empirisches spärlich-zu-dichtes Belohnungsprinzip für das Post-Training von Sprachmodellen

Zusammenfassung

In Umgebungen, in denen beschriftete überprüfbare Trainingsdaten den limitierenden Faktor darstellen, sollte jedes geprüfte Beispiel sorgfältig zugewiesen werden. Die gängige Praxis besteht darin, diese Daten direkt auf dem Modell zu verwenden, das eingesetzt werden soll, beispielsweise durch Ausführung von GRPO auf dem Einsatz-Studenten. Wir argumentieren, dass dies oft eine ineffiziente Zuweisung ist, da sie ein Belohnungsdichte-Prinzip übersieht: Spärliche Sequenz-belohnung sollte Modelle trainieren, bei denen Exploration produktiv ist, während dichte Token-Ebene-Lehrerbelohnung dort eingesetzt werden sollte, wo das Ziel darin besteht, Verhalten in ein kleineres Modell zu komprimieren. Aus dieser Sicht sind GRPO-artiges spärliches RL und OPD-artige dichte Lehrerüberwachung keine getrennten Rezepte; sie sind unterschiedliche Belohnungsdichte-Regime. Die Zuweisungsregel ist einfach: Verwenden Sie knappe beschriftete Trainingsdaten vorgeschaltet auf dem stärksten Modell, das sie in belohnungsgeprägtes Verhalten umwandeln kann, und übertragen Sie dieses Verhalten dann nachgeschaltet als dichte Überwachung. Wir evaluieren diese Regel an überprüfbarer Mathematik mit Qwen3- und Llama-Modellen. Bei einer festen Qwen3-1.7B-Einsatz-Studenten-Größe übertrifft ein durch die dichte Brücke destillierter, RL-verbesserter 8B-Lehrer das direkte GRPO auf demselben Studenten, während die Übertragung vom gleichen Lehrer vor dem RL schlechter abschneidet. Die Brücke ist wichtig: Eine Forward-KL-Aufwärmphase auf Lehrer-Rollouts, gefolgt von OPD auf Studenten-Rollouts, ist durchgängig am stärksten auf MATH vor jeglichem spärlichen RL auf Studentenseite nach der Brücke und liefert auch die besten Pre-Stage-3-AIME-Endpunkte für die kanonischen 8B/14B-Lehrer. Die Brücke macht zudem späteres spärliches RL auf Studentenseite effektiv: GRPO, das auf einem kalten Studenten schwach ist, steigert MATH von 75,4 % auf 78,5 % nach der Brücke und übertrifft eine vergleichbare Replay-Kontrolle um 2,8 Punkte. Das operative Prinzip besteht darin, knappe beschriftete Daten nicht auf der am wenigsten vorbereiteten Policy zu verwenden: Nutzen Sie spärliche Belohnung für die Entdeckung auf Lehrerseite, dichte Übertragung für die Studentenkompression und spärliche Belohnung auf Studentenseite erst nach der Brücke.

English

In settings where labeled verifiable training data is the binding constraint, each checked example should be allocated carefully. The standard practice is to use this data directly on the model that will be deployed, for example by running GRPO on the deployment student. We argue that this is often an inefficient allocation because it overlooks a reward-density principle: sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model. In this view, GRPO-style sparse RL and OPD-style dense teacher supervision are not separate recipes; they are different reward-density regimes. The allocation rule is simple: use scarce labeled training data upstream on the strongest model that can turn it into reward-shaped behavior, then transfer that behavior downstream as dense supervision. We evaluate this rule on verifiable math with Qwen3 and Llama models. At fixed Qwen3-1.7B deployment-student size, an RL-improved 8B teacher distilled through the dense bridge outperforms direct GRPO on the same student, while transfer from the same teacher before RL underperforms. The bridge is important: a forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before any post-bridge student-side sparse RL, and also gives the best pre-Stage~3 AIME endpoints for the canonical 8B/14B teachers. The bridge also makes later student-side sparse RL effective: GRPO that is weak on a cold student lifts MATH from 75.4% to 78.5% after the bridge and outperforms a matched replay control by 2.8 points. The operational principal is to avoid using scarce labeled data on the least prepared policy: use sparse reward for teacher-side discovery, dense transfer for student compression, and student-side sparse reward only after the bridge.

Jenseits von GRPO und On-Policy-Destillation: Ein empirisches spärlich-zu-dichtes Belohnungsprinzip für das Post-Training von Sprachmodellen

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

Zusammenfassung

Support