ALCANCE: Mejora de la Destilación en Política Mediante Calibración de Señal con Ponderación Adaptativa de Doble Vía

Resumen

El aprendizaje por refuerzo on-policy se ha convertido en el paradigma dominante para el razonamiento de la alineación en modelos de lenguaje grandes, sin embargo, sus recompensas escasas y a nivel de resultado hacen que la asignación de crédito a nivel de token sea notoriamente difícil. La Destilación On-Policy (OPD) mitiga esto introduciendo una supervisión densa de divergencia KL a nivel de token desde un modelo profesor, pero típicamente aplica esta supervisión de manera uniforme en todas las trayectorias, ignorando diferencias fundamentales en la calidad de la señal. Proponemos la Mejora de Destilación On-Policy Calibrada por Señal (SCOPE), un marco de entrenamiento adaptativo de doble vía que encauza las trayectorias on-policy según su corrección en dos vías de supervisión complementarias. Para las trayectorias incorrectas, SCOPE realiza una destilación KL ponderada por la perplejidad del profesor para priorizar instancias donde el profesor demuestra una capacidad correctiva genuina, mientras reduce el peso de las guías poco confiables. Para las trayectorias correctas, aplica una Máxima Verosimilitud (MLE) ponderada por la perplejidad del estudiante para concentrar el refuerzo en muestras de baja confianza en el límite de capacidad, en lugar de reforzar en exceso las ya dominadas. Ambas vías emplean una normalización a nivel de grupo para calibrar adaptativamente las distribuciones de peso, teniendo en cuenta la variación intrínseca de dificultad entre los prompts. Experimentos exhaustivos en seis benchmarks de razonamiento muestran que SCOPE logra una mejora relativa promedio del 11.42% en Avg@32 y del 7.30% en Pass@32 sobre líneas base competitivas, demostrando su efectividad consistente.

English

On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome-level rewards make token-level credit assignment notoriously difficult. On-Policy Distillation (OPD) alleviates this by introducing dense, token-level KL supervision from a teacher model, but typically applies this supervision uniformly across all rollouts, ignoring fundamental differences in signal quality. We propose Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), a dual-path adaptive training framework that routes on-policy rollouts by correctness into two complementary supervision paths. For incorrect trajectories, SCOPE performs teacher-perplexity-weighted KL distillation to prioritize instances where the teacher demonstrates genuine corrective capability, while down-weighting unreliable guidance. For correct trajectories, it applies student-perplexity-weighted MLE to concentrate reinforcement on low-confidence samples at the capability boundary rather than over-reinforcing already mastered ones. Both paths employ a group-level normalization to adaptively calibrate weight distributions, accounting for the intrinsic difficulty variance across prompts. Extensive experiments on six reasoning benchmarks show that SCOPE achieves an average relative improvement of 11.42% in Avg@32 and 7.30% in Pass@32 over competitive baselines, demonstrating its consistent effectiveness.

ALCANCE: Mejora de la Destilación en Política Mediante Calibración de Señal con Ponderación Adaptativa de Doble Vía

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Resumen

Support