Unification de l'optimisation de politique par distillation relative au groupe et auto-distillation via routage d'échantillons

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme standard pour le post-entraînement des grands modèles de langage. Bien que l'Optimisation de Politique par Groupe Relatif (GRPO) soit largement adoptée, son attribution de crédit grossière pénalise uniformément les séquences d'actions échouées, manquant de la granularité au niveau des tokens nécessaire pour corriger efficacement des déviations spécifiques. L'Optimisation de Politique par Auto-distillation (SDPO) résout ce problème en fournissant une supervision plus dense et ciblée au niveau des logits, facilitant une amélioration rapide en début d'entraînement, mais elle s'effondre fréquemment lors d'un entraînement prolongé. Nous attribuons cette instabilité en phase tardive à deux défauts intrinsèques : l'auto-distillation sur des échantillons déjà corrects introduit une ambiguïté d'optimisation, et la fiabilité du signal de l'auto-enseignant se dégrade progressivement. Pour résoudre ces problèmes, nous proposons l'Optimisation de Politique à Routage d'Échantillons (SRPO), un cadre unifié sur-politique qui achemine les échantillons corrects vers le renforcement aligné sur la récompense de GRPO et les échantillons échoués vers la correction ciblée au niveau des logits de SDPO. SRPO intègre en outre un mécanisme de pondération dynamique sensible à l'entropie pour supprimer les cibles de distillation peu fiables à haute entropie tout en privilégiant celles qui sont confiantes. Évalué sur cinq benchmarks et deux échelles de modèles, SRPO atteint à la fois l'amélioration rapide initiale de SDPO et la stabilité à long terme de GRPO. Il surpasse constamment les performances maximales des deux méthodes de référence, augmentant la moyenne sur les cinq benchmarks sur Qwen3-8B de 3,4 % par rapport à GRPO et de 6,3 % par rapport à SDPO, tout en produisant des longueurs de réponse modérées et en réduisant le coût computationnel par étape jusqu'à 17,2 %.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training large language models. While Group Relative Policy Optimization (GRPO) is widely adopted, its coarse credit assignment uniformly penalizes failed rollouts, lacking the token-level focus needed to efficiently address specific deviations. Self-Distillation Policy Optimization (SDPO) addresses this by providing denser, more targeted logit-level supervision that facilitates rapid early improvement, yet it frequently collapses during prolonged training. We trace this late-stage instability to two intrinsic flaws: self-distillation on already-correct samples introduces optimization ambiguity, and the self-teacher's signal reliability progressively degrades. To resolve these issues, we propose Sample-Routed Policy Optimization (SRPO), a unified on-policy framework that routes correct samples to GRPO's reward-aligned reinforcement and failed samples to SDPO's targeted logit-level correction. SRPO further incorporates an entropy-aware dynamic weighting mechanism to suppress high-entropy, unreliable distillation targets while emphasizing confident ones. Evaluated across five benchmarks and two model scales, SRPO achieves both the rapid early improvement of SDPO and the long-horizon stability of GRPO. It consistently surpasses the peak performance of both baselines, raising the five-benchmark average on Qwen3-8B by 3.4% over GRPO and 6.3% over SDPO, while simultaneously yielding moderate response lengths and lowering per-step compute cost by up to 17.2%.

Unification de l'optimisation de politique par distillation relative au groupe et auto-distillation via routage d'échantillons

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Résumé

Support