Unificação da Otimização de Políticas por Distilação Relativa ao Grupo e por Auto-Distilação via Roteamento de Amostras

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se um paradigma padrão para o pós-treinamento de grandes modelos de linguagem. Embora a Otimização de Política por Grupo Relativo (GRPO) seja amplamente adotada, sua atribuição de crédito grosseira penaliza uniformemente as execuções malsucedidas, carecendo do foco a nível de token necessário para abordar eficientemente desvios específicos. A Otimização de Política por Auto-Destilhação (SDPO) resolve isso fornecendo uma supervisão mais densa e direcionada a nível de logit, que facilita uma melhoria rápida inicial, mas frequentemente colapsa durante treinamentos prolongados. Nós rastreamos essa instabilidade em estágios avançados até duas falhas intrínsecas: a auto-destilhação em amostras já corretas introduz ambiguidade de otimização, e a confiabilidade do sinal do auto-professor degrada-se progressivamente. Para resolver essas questões, propomos a Otimização de Política com Roteamento de Amostras (SRPO), uma estrutura unificada *on-policy* que direciona amostras corretas para o reforço alinhado à recompensa da GRPO e amostras falhas para a correção direcionada a nível de logit da SDPO. A SRPO incorpora ainda um mecanismo de ponderação dinâmica consciente da entropia para suprimir alvos de destilação não confiáveis e de alta entropia, enquanto enfatiza os mais confiantes. Avaliada em cinco benchmarks e duas escalas de modelo, a SRPO alcança tanto a rápida melhoria inicial da SDPO quanto a estabilidade de longo prazo da GRPO. Ela supera consistentemente o desempenho máximo de ambas as baselines, elevando a média dos cinco benchmarks no Qwen3-8B em 3,4% sobre a GRPO e 6,3% sobre a SDPO, enquanto simultaneamente produz comprimentos de resposta moderados e reduz o custo computacional por passo em até 17,2%.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training large language models. While Group Relative Policy Optimization (GRPO) is widely adopted, its coarse credit assignment uniformly penalizes failed rollouts, lacking the token-level focus needed to efficiently address specific deviations. Self-Distillation Policy Optimization (SDPO) addresses this by providing denser, more targeted logit-level supervision that facilitates rapid early improvement, yet it frequently collapses during prolonged training. We trace this late-stage instability to two intrinsic flaws: self-distillation on already-correct samples introduces optimization ambiguity, and the self-teacher's signal reliability progressively degrades. To resolve these issues, we propose Sample-Routed Policy Optimization (SRPO), a unified on-policy framework that routes correct samples to GRPO's reward-aligned reinforcement and failed samples to SDPO's targeted logit-level correction. SRPO further incorporates an entropy-aware dynamic weighting mechanism to suppress high-entropy, unreliable distillation targets while emphasizing confident ones. Evaluated across five benchmarks and two model scales, SRPO achieves both the rapid early improvement of SDPO and the long-horizon stability of GRPO. It consistently surpasses the peak performance of both baselines, raising the five-benchmark average on Qwen3-8B by 3.4% over GRPO and 6.3% over SDPO, while simultaneously yielding moderate response lengths and lowering per-step compute cost by up to 17.2%.

Unificação da Otimização de Políticas por Distilação Relativa ao Grupo e por Auto-Distilação via Roteamento de Amostras

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Resumo

Support