SCOPE: Signal-kalibrierte Verbesserung des On-Policy-Distillationsverfahrens mit dualem Pfad und adaptiver Gewichtung

Zusammenfassung

On-Policy Reinforcement Learning hat sich zum dominanten Paradigma für die Ausrichtung von Large Language Models entwickelt, doch die spärlichen, ergebnisbasierten Belohnungen machen die Kredit-Zuordnung auf Token-Ebene notorisch schwierig. On-Policy Distillation (OPD) mildert dieses Problem durch die Einführung einer dichten KL-Überwachung auf Token-Ebene von einem Teacher-Modell, wendet diese Überwachung jedoch typischerweise gleichmäßig auf alle Rollouts an und ignoriert dabei fundamentale Unterschiede in der Signalqualität. Wir schlagen Signal-Calibrated On-Policy Distillation Enhancement (SCOPE) vor, ein duales, adaptives Trainingsframework, das On-Policy-Rollouts basierend auf ihrer Korrektheit in zwei komplementäre Überwachungspfade leitet. Für inkorrekte Trajektorien führt SCOPE eine teacher-perplexitätsgewichtete KL-Distillation durch, um Instanzen zu priorisieren, bei denen der Teacher echte Korrekturfähigkeit demonstriert, während unzuverlässige Anleitungen heruntergewichtet werden. Für korrekte Trajektorien wendet es student-perplexitätsgewichtetes MLE an, um die Verstärkung auf Low-Confidence-Stichproben an der Fähigkeitsgrenze zu konzentrieren, anstatt bereits gemeisterte übermäßig zu verstärken. Beide Pfade verwenden eine Normalisierung auf Gruppenebene, um die Gewichtsverteilungen adaptiv zu kalibrieren und die intrinsische Schwierigkeitsvarianz über verschiedene Prompts hinweg zu berücksichtigen. Umfangreiche Experimente auf sechs Reasoning-Benchmarks zeigen, dass SCOPE eine durchschnittliche relative Verbesserung von 11,42 % in Avg@32 und 7,30 % in Pass@32 gegenüber wettbewerbsfähigen Baselines erzielt, was seine konsistente Wirksamkeit demonstriert.

English

On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.

SCOPE: Signal-kalibrierte Verbesserung des On-Policy-Distillationsverfahrens mit dualem Pfad und adaptiver Gewichtung

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Zusammenfassung

Support