SCOPE : Amélioration de la Distillation Sur la Politique par Calibration du Signal avec Pondération Adaptative à Double Chemin

Résumé

L'apprentissage par renforcement sur-politique est devenu le paradigme dominant pour raisonner sur l'alignement des grands modèles de langage, mais ses récompenses éparses, basées sur le résultat final, rendent l'attribution de crédit au niveau des tokens notoirement difficile. La Distillation sur Politique (On-Policy Distillation, OPD) atténue ce problème en introduisant une supervision dense de divergence KL au niveau des tokens à partir d'un modèle enseignant, mais elle l'applique généralement de manière uniforme sur toutes les trajectoires, ignorant les différences fondamentales dans la qualité du signal. Nous proposons SCOPE (Signal-Calibrated On-Policy Distillation Enhancement), un cadre d'entraînement adaptatif à double voie qui achemine les trajectoires sur-politiques selon leur exactitude vers deux voies de supervision complémentaires. Pour les trajectoires incorrectes, SCOPE effectue une distillation KL pondérée par la perplexité de l'enseignant pour privilégier les instances où l'enseignant démontre une réelle capacité corrective, tout en réduisant le poids des conseils peu fiables. Pour les trajectoires correctes, il applique un apprentissage par maximum de vraisemblance (MLE) pondéré par la perplexité de l'étudiant, afin de concentrer le renforcement sur les échantillons de faible confiance à la frontière des capacités plutôt que de renforcer excessivement ceux déjà maîtrisés. Les deux voies utilisent une normalisation au niveau du groupe pour calibrer de manière adaptive les distributions de poids, tenant compte de la variance intrinsèque de la difficulté entre les prompts. Des expériences approfondies sur six benchmarks de raisonnement montrent que SCOPE obtient une amélioration relative moyenne de 11,42 % en Avg@32 et de 7,30 % en Pass@32 par rapport à des bases de référence compétitives, démontrant son efficacité constante.

English

On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.

SCOPE : Amélioration de la Distillation Sur la Politique par Calibration du Signal avec Pondération Adaptative à Double Chemin

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Résumé

Support