ESCOPO: Aprimoramento de Destilação On-Policy Calibrada por Sinal com Ponderação Adaptativa de Caminho Duplo

Resumo

O aprendizado por reforço on-policy tornou-se o paradigma dominante para o raciocínio sobre alinhamento em grandes modelos de linguagem, no entanto, suas recompensas esparsas, baseadas em resultados, tornam a atribuição de crédito a nível de token notoriamente difícil. A Destilação On-Policy (OPD) atenua isso introduzindo uma supervisão densa de KL a nível de token a partir de um modelo professor, mas normalmente aplica essa supervisão uniformemente em todas as rollouts, ignorando diferenças fundamentais na qualidade do sinal. Propomos o Aprimoramento por Destilação On-Policy com Calibração de Sinal (SCOPE), uma estrutura de treinamento adaptativa de caminho duplo que direciona as rollouts on-policy pela sua correção em dois caminhos de supervisão complementares. Para trajetórias incorretas, o SCOPE realiza uma destilação de KL ponderada pela perplexidade do professor para priorizar instâncias onde o professor demonstra capacidade corretiva genuína, enquanto reduz o peso de orientações não confiáveis. Para trajetórias corretas, ele aplica MLE ponderado pela perplexidade do estudante para concentrar o reforço em amostras de baixa confiança no limite da capacidade, em vez de reforçar excessivamente as já dominadas. Ambos os caminhos empregam uma normalização a nível de grupo para calibrar adaptativamente as distribuições de peso, considerando a variação intrínseca de dificuldade entre os prompts. Experimentos extensos em seis benchmarks de raciocínio mostram que o SCOPE alcança uma melhoria relativa média de 11,42% em Avg@32 e 7,30% em Pass@32 sobre linhas de base competitivas, demonstrando sua eficácia consistente.

English

On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.

ESCOPO: Aprimoramento de Destilação On-Policy Calibrada por Sinal com Ponderação Adaptativa de Caminho Duplo

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Resumo

Support