SCOPE: Signaal-gekalibreerde verbetering van on-policy distillatie met dual-path adaptieve weging

Samenvatting

On-policy reinforcement learning is het dominante paradigma geworden voor het afstemmen van redeneervermogen in grote taalmodellen, maar de schaarse beloningen op uitkomstniveau maken credit assignment op tokenniveau berucht moeilijk. On-Policy Distillation (OPD) verlicht dit door dichte, token-level KL-supervisie van een teacher-model in te voeren, maar past deze supervisie doorgaans uniform toe over alle rollouts, waarbij fundamentele verschillen in signaalkwaliteit worden genegeerd. Wij stellen Signal-Calibrated On-Policy Distillation Enhancement (SCOPE) voor, een dual-path adaptief trainingsraamwerk dat on-policy rollouts op basis van correctheid routeert naar twee complementaire supervisiepaden. Voor incorrecte trajecten voert SCOPE teacher-perplexity-gewogen KL-distillatie uit om prioriteit te geven aan instanties waarin de teacher daadwerkelijk corrigerend vermogen demonstreert, terwijl onbetrouwbare begeleiding wordt afgewaardeerd. Voor correcte trajecten past het student-perplexity-gewogen MLE toe om versterking te concentreren op voorbeelden met lage betrouwbaarheid aan de grenzen van het vermogen, in plaats van reeds beheerste voorbeelden te overversterken. Beide paden gebruiken een normalisatie op groepsniveau om gewichtsverdelingen adaptief te kalibreren, rekening houdend met de intrinsieke moeilijkheidsvariantie tussen prompts. Uitgebreide experimenten op zes redeneerbenchmarks tonen aan dat SCOPE een gemiddelde relatieve verbetering bereikt van 11,42% in Avg@32 en 7,30% in Pass@32 ten opzichte van competitieve baselines, wat de consistente effectiviteit aantoont.

English

On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.

SCOPE: Signaal-gekalibreerde verbetering van on-policy distillatie met dual-path adaptieve weging

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Samenvatting

Support