Unificazione dell'Ottimizzazione delle Politiche tramite Distillazione Gruppo-Relativa e Auto-Distillazione mediante Instradamento dei Campioni

Abstract

L’apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato un paradigma standard per il post-addestramento di grandi modelli linguistici. Sebbene l’Ottimizzazione della Politica con Relatività di Gruppo (GRPO) sia ampiamente adottata, la sua assegnazione del credito approssimativa penalizza uniformemente i rollout falliti, mancando della focalizzazione a livello di token necessaria per affrontare efficientemente deviazioni specifiche. L’Ottimizzazione della Politica con Auto-Distillazione (SDPO) affronta questo problema fornendo una supervisione più densa e mirata a livello di logit, che facilita un miglioramento rapido nelle fasi iniziali, ma collassa frequentemente durante l'addestramento prolungato. Riconduciamo questa instabilità nelle fasi avanzate a due difetti intrinseci: l'auto-distillazione su campioni già corretti introduce ambiguità di ottimizzazione e l'affidabilità del segnale dell'auto-teacher si degrada progressivamente. Per risolvere questi problemi, proponiamo l’Ottimizzazione della Politica con Instradamento dei Campioni (SRPO), un framework on-policy unificato che instrada i campioni corretti verso il rinforzo allineato alla ricompensa di GRPO e i campioni falliti verso la correzione mirata a livello di logit di SDPO. SRPO incorpora inoltre un meccanismo di ponderazione dinamica consapevole dell'entropia per sopprimere i target di distillazione inaffidabili ad alta entropia, enfatizzando al contempo quelli più confidenti. Valutato su cinque benchmark e due scale di modelli, SRPO raggiunge sia il rapido miglioramento iniziale di SDPO che la stabilità a lungo termine di GRPO. Supera costantemente le prestazioni di picco di entrambe le baseline, aumentando la media su cinque benchmark su Qwen3-8B del 3,4% rispetto a GRPO e del 6,3% rispetto a SDPO, producendo al contempo lunghezze di risposta moderate e riducendo il costo computazionale per passo fino al 17,2%.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training large language models. While Group Relative Policy Optimization (GRPO) is widely adopted, its coarse credit assignment uniformly penalizes failed rollouts, lacking the token-level focus needed to efficiently address specific deviations. Self-Distillation Policy Optimization (SDPO) addresses this by providing denser, more targeted logit-level supervision that facilitates rapid early improvement, yet it frequently collapses during prolonged training. We trace this late-stage instability to two intrinsic flaws: self-distillation on already-correct samples introduces optimization ambiguity, and the self-teacher's signal reliability progressively degrades. To resolve these issues, we propose Sample-Routed Policy Optimization (SRPO), a unified on-policy framework that routes correct samples to GRPO's reward-aligned reinforcement and failed samples to SDPO's targeted logit-level correction. SRPO further incorporates an entropy-aware dynamic weighting mechanism to suppress high-entropy, unreliable distillation targets while emphasizing confident ones. Evaluated across five benchmarks and two model scales, SRPO achieves both the rapid early improvement of SDPO and the long-horizon stability of GRPO. It consistently surpasses the peak performance of both baselines, raising the five-benchmark average on Qwen3-8B by 3.4% over GRPO and 6.3% over SDPO, while simultaneously yielding moderate response lengths and lowering per-step compute cost by up to 17.2%.

Unificazione dell'Ottimizzazione delle Politiche tramite Distillazione Gruppo-Relativa e Auto-Distillazione mediante Instradamento dei Campioni

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Abstract

Support