Vereinheitlichung der gruppenrelativen und selbst-distillierenden Politikoptimierung durch Probenrouting

Zusammenfassung

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich zu einem Standardparadigma für das Nachtraining großer Sprachmodelle entwickelt. Während Group Relative Policy Optimization (GRPO) weit verbreitet ist, bestraft deren grobe Kreditzuweisung fehlgeschlagene Rollouts gleichmäßig, was den token-spezifischen Fokus vermissen lässt, der zur effizienten Behebung spezifischer Abweichungen erforderlich ist. Self-Distillation Policy Optimization (SDPO) adressiert dies durch eine dichtere, gezieltere Logit-Level-Überwachung, die eine schnelle frühe Verbesserung ermöglicht, bricht jedoch häufig während längerer Trainingsphasen zusammen. Wir führen diese Stabilitätsprobleme in späteren Phasen auf zwei intrinsische Schwächen zurück: Selbst-Distillation bei bereits korrekten Stichproben führt zu Optimierungsunschärfe, und die Zuverlässigkeit des Signals des Selbst-Lehrers verschlechtert sich fortschreitend. Um diese Probleme zu lösen, schlagen wir Sample-Routed Policy Optimization (SRPO) vor, einen einheitlichen On-Policy-Rahmen, der korrekte Stichproben zur belohnungsorientierten Verstärkung von GRPO und fehlgeschlagene Stichproben zur gezielten Logit-Level-Korrektur von SDPO weiterleitet. SRPO integriert zudem einen entropiebewussten dynamischen Gewichtungsmechanismus, der unzuverlässige Distillationsziele mit hoher Entropie unterdrückt und gleichzeitig selbstsichere betont. In Evaluierungen über fünf Benchmarks und zwei Modellgrößen hinweg erreicht SRPO sowohl die schnellen anfänglichen Verbesserungen von SDPO als auch die Langzeitstabilität von GRPO. Es übertrifft konsequent die Spitzenleistung beider Baselines, steigert den Durchschnitt über fünf Benchmarks bei Qwen3-8B um 3,4 % gegenüber GRPO und um 6,3 % gegenüber SDPO, erzielt gleichzeitig moderate Antwortlängen und senkt die Rechenkosten pro Schritt um bis zu 17,2 %.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training large language models. While Group Relative Policy Optimization (GRPO) is widely adopted, its coarse credit assignment uniformly penalizes failed rollouts, lacking the token-level focus needed to efficiently address specific deviations. Self-Distillation Policy Optimization (SDPO) addresses this by providing denser, more targeted logit-level supervision that facilitates rapid early improvement, yet it frequently collapses during prolonged training. We trace this late-stage instability to two intrinsic flaws: self-distillation on already-correct samples introduces optimization ambiguity, and the self-teacher's signal reliability progressively degrades. To resolve these issues, we propose Sample-Routed Policy Optimization (SRPO), a unified on-policy framework that routes correct samples to GRPO's reward-aligned reinforcement and failed samples to SDPO's targeted logit-level correction. SRPO further incorporates an entropy-aware dynamic weighting mechanism to suppress high-entropy, unreliable distillation targets while emphasizing confident ones. Evaluated across five benchmarks and two model scales, SRPO achieves both the rapid early improvement of SDPO and the long-horizon stability of GRPO. It consistently surpasses the peak performance of both baselines, raising the five-benchmark average on Qwen3-8B by 3.4% over GRPO and 6.3% over SDPO, while simultaneously yielding moderate response lengths and lowering per-step compute cost by up to 17.2%.

Vereinheitlichung der gruppenrelativen und selbst-distillierenden Politikoptimierung durch Probenrouting

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Zusammenfassung

Support