Unificación de la Optimización de Políticas mediante Distilación Relativa al Grupo y Auto-Distilación mediante Enrutamiento de Muestras

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en un paradigma estándar para el post-entrenamiento de modelos de lenguaje grandes. Si bien la Optimización de Políticas de Grupo Relativo (GRPO) es ampliamente adoptada, su asignación de crédito gruesa penaliza uniformemente las ejecuciones fallidas, careciendo del enfoque a nivel de token necesario para abordar eficientemente desviaciones específicas. La Optimización de Políticas por Auto-Destilación (SDPO) aborda esto proporcionando una supervisión más densa y dirigida a nivel de logits que facilita una mejora temprana rápida, pero frecuentemente colapsa durante entrenamientos prolongados. Rastreamos esta inestabilidad en etapas avanzadas hasta dos fallos intrínsecos: la auto-destilación en muestras ya correctas introduce ambigüedad de optimización, y la fiabilidad de la señal del auto-profesor se degrada progresivamente. Para resolver estos problemas, proponemos la Optimización de Políticas con Enrutamiento de Muestras (SRPO), un marco unificado de política en línea que deriva las muestras correctas hacia el refuerzo alineado con recompensas de GRPO y las muestras fallidas hacia la corrección dirigida a nivel de logits de SDPO. SRPO incorpora además un mecanismo de ponderación dinámica consciente de la entropía para suprimir los objetivos de destilación de alta entropía y poco fiables, mientras enfatiza los más confiables. Evaluado en cinco benchmarks y dos escalas de modelo, SRPO logra tanto la rápida mejora inicial de SDPO como la estabilidad a largo plazo de GRPO. Supera consistentemente el rendimiento máximo de ambas líneas base, elevando el promedio de los cinco benchmarks en Qwen3-8B en un 3.4% sobre GRPO y un 6.3% sobre SDPO, a la vez que produce longitudes de respuesta moderadas y reduce el coste computacional por paso hasta en un 17.2%.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training large language models. While Group Relative Policy Optimization (GRPO) is widely adopted, its coarse credit assignment uniformly penalizes failed rollouts, lacking the token-level focus needed to efficiently address specific deviations. Self-Distillation Policy Optimization (SDPO) addresses this by providing denser, more targeted logit-level supervision that facilitates rapid early improvement, yet it frequently collapses during prolonged training. We trace this late-stage instability to two intrinsic flaws: self-distillation on already-correct samples introduces optimization ambiguity, and the self-teacher's signal reliability progressively degrades. To resolve these issues, we propose Sample-Routed Policy Optimization (SRPO), a unified on-policy framework that routes correct samples to GRPO's reward-aligned reinforcement and failed samples to SDPO's targeted logit-level correction. SRPO further incorporates an entropy-aware dynamic weighting mechanism to suppress high-entropy, unreliable distillation targets while emphasizing confident ones. Evaluated across five benchmarks and two model scales, SRPO achieves both the rapid early improvement of SDPO and the long-horizon stability of GRPO. It consistently surpasses the peak performance of both baselines, raising the five-benchmark average on Qwen3-8B by 3.4% over GRPO and 6.3% over SDPO, while simultaneously yielding moderate response lengths and lowering per-step compute cost by up to 17.2%.

Unificación de la Optimización de Políticas mediante Distilación Relativa al Grupo y Auto-Distilación mediante Enrutamiento de Muestras

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Resumen

Support