Vereniging van groep-relatieve en zelf-distillatiebeleidsoptimalisatie via sample routing

Samenvatting

Versterkend leren met verifieerbare beloningen (RLVR) is een standaardparadigma geworden voor het na-trainen van grote taalmodel(len). Hoewel Group Relative Policy Optimization (GRPO) veel wordt toegepast, kent diens grove krediettoewijzing uniforme straffen toe aan mislukte rollouts, waardoor het ontbreekt aan de token-level focus die nodig is om specifieke afwijkingen efficiënt aan te pakken. Self-Distillation Policy Optimization (SDPO) lost dit op door een dichtere, meer gerichte supervisie op logit-niveau te bieden die snelle vroege verbetering mogelijk maakt, maar de methode faalt vaak tijdens langdurige training. Wij herleiden deze instabiliteit in latere fasen tot twee intrinsieke tekortkomingen: zelfdistillatie op reeds correcte samples introduceert optimalisatie-ambiguïteit, en de betrouwbaarheid van het signaal van de 'zelf-leraar' degradeert progressief. Om deze problemen op te lossen, stellen wij Sample-Routed Policy Optimization (SRPO) voor, een uniform on-policy raamwerk dat correcte samples doorstuurt naar de beloning-afgestemde versterking van GRPO en mislukte samples naar de gerichte logit-level correctie van SDPO. SRPO integreert verder een entropie-bewust dynamisch wegingsmechanisme om onbetrouwbare distillatiedoelen met hoge entropie te onderdrukken, terwijl zelfverzekerde doelen worden benadrukt. Geëvalueerd over vijf benchmarks en twee modelschalen, bereikt SRPO zowel de snelle vroege verbetering van SDPO als de langetermijnstabiliteit van GRPO. Het overtreft consistent de piekprestaties van beide baseline-methoden, verhoogt het gemiddelde over de vijf benchmarks op Qwen3-8B met 3,4% ten opzichte van GRPO en 6,3% ten opzichte van SDPO, en levert tegelijkertijd gematigde antwoordlengtes op en verlaagt de rekenkosten per stap met tot 17,2%.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training large language models. While Group Relative Policy Optimization (GRPO) is widely adopted, its coarse credit assignment uniformly penalizes failed rollouts, lacking the token-level focus needed to efficiently address specific deviations. Self-Distillation Policy Optimization (SDPO) addresses this by providing denser, more targeted logit-level supervision that facilitates rapid early improvement, yet it frequently collapses during prolonged training. We trace this late-stage instability to two intrinsic flaws: self-distillation on already-correct samples introduces optimization ambiguity, and the self-teacher's signal reliability progressively degrades. To resolve these issues, we propose Sample-Routed Policy Optimization (SRPO), a unified on-policy framework that routes correct samples to GRPO's reward-aligned reinforcement and failed samples to SDPO's targeted logit-level correction. SRPO further incorporates an entropy-aware dynamic weighting mechanism to suppress high-entropy, unreliable distillation targets while emphasizing confident ones. Evaluated across five benchmarks and two model scales, SRPO achieves both the rapid early improvement of SDPO and the long-horizon stability of GRPO. It consistently surpasses the peak performance of both baselines, raising the five-benchmark average on Qwen3-8B by 3.4% over GRPO and 6.3% over SDPO, while simultaneously yielding moderate response lengths and lowering per-step compute cost by up to 17.2%.

Vereniging van groep-relatieve en zelf-distillatiebeleidsoptimalisatie via sample routing

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Samenvatting

Support