SCOPE: Улучшение он-политической дистилляции с калибровкой сигнала и двухпутевым адаптивным взвешиванием

Аннотация

Он-политическое обучение с подкреплением стало доминирующей парадигмой для решения задач согласования в больших языковых моделях, однако его разреженные вознаграждения на уровне исходов делают распределение заслуг на уровне токенов крайне сложной задачей. Дистилляция в рамках он-политики (OPD) смягчает эту проблему за счет введения плотного KL-контроля на уровне токенов от модели-учителя, однако обычно применяет этот контроль равномерно ко всем прогонам, игнорируя фундаментальные различия в качестве сигнала. Мы предлагаем Улучшение дистилляции в рамках он-политики с калибровкой сигнала (SCOPE) — двухконтурную адаптивную框架 обучения, которая распределяет он-политические прогоны по корректности на два взаимодополняющих контура контроля. Для некорректных траекторий SCOPE выполняет взвешенную по perplexity учителя KL-дистилляцию, чтобы отдавать приоритет случаям, где учитель демонстрирует реальную корректирующую способность, одновременно снижая вес ненадежных указаний. Для корректных траекторий применяется взвешенное по perplexity студента максимальное правдоподобие (MLE), чтобы сосредоточить усиление на примерах с низкой уверенностью у границы возможностей, а не на избыточном закреплении уже освоенных. Оба контура используют нормализацию на уровне групп для адаптивной калибровки распределения весов с учетом внутренней вариации сложности между промптами. Экстенсивные эксперименты на шести бенчмарках reasoning показывают, что SCOPE достигает среднего относительного улучшения на 11.42% по Avg@32 и на 7.30% по Pass@32 по сравнению с конкурентоспособными базовыми методами, что демонстрирует его стабильную эффективность.

English

On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.

SCOPE: Улучшение он-политической дистилляции с калибровкой сигнала и двухпутевым адаптивным взвешиванием

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Аннотация

Support