SCOPE: Miglioramento della Distillazione On-Policy con Calibrazione del Segnale e Ponderazione Adattiva a Doppio Percorso

Abstract

L'apprendimento per rinforzo on-policy è diventato il paradigma dominante per il ragionamento sull'allineamento nei grandi modelli linguistici, tuttavia le sue ricompense sparse, a livello di risultato, rendono notoriamente difficile l'attribuzione del credito a livello di token. La Distillazione On-Policy (OPD) mitiga questo problema introducendo una supervisione densa di KL a livello di token da un modello insegnante, ma tipicamente applica questa supervisione uniformemente su tutti i rollout, ignorando le differenze fondamentali nella qualità del segnale. Proponiamo Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), un framework di addestramento adattivo a doppio percorso che instrada i rollout on-policy in base alla correttezza in due percorsi di supervisione complementari. Per le traiettorie errate, SCOPE esegue una distillazione KL pesata in base alla perplexity dell'insegnante, per dare priorità agli esempi in cui quest'ultimo dimostra una genuina capacità correttiva, riducendo al contempo il peso delle indicazioni inaffidabili. Per le traiettorie corrette, applica una Massima Verosimiglianza (MLE) pesata in base alla perplexity dello studente, per concentrare il rinforzo sugli esempi a bassa confidenza al confine delle capacità, piuttosto che rinforzare eccessivamente quelli già padroneggiati. Entrambi i percorsi impiegano una normalizzazione a livello di gruppo per calibrare adattivamente le distribuzioni dei pesi, tenendo conto della variazione intrinseca della difficoltà tra i prompt. Esperimenti estesi su sei benchmark di ragionamento mostrano che SCOPE ottiene un miglioramento relativo medio dell'11,42% in Avg@32 e del 7,30% in Pass@32 rispetto a baseline competitive, dimostrando la sua efficacia consistente.

English

On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.

SCOPE: Miglioramento della Distillazione On-Policy con Calibrazione del Segnale e Ponderazione Adattiva a Doppio Percorso

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Abstract

Support