OmniOPD: Destilación on-policy sin logits mediante verificación especulativa

Resumen

La destilación on-policy (OPD) entrena un modelo estudiante en sus propias trayectorias generativas bajo una densa retroalimentación a nivel de tokens de un profesor más fuerte, mitigando tanto el cambio de distribución off-policy del ajuste fino supervisado (SFT) como la asignación dispersa de crédito del aprendizaje por refuerzo (RL). Sin embargo, la OPD estándar enfrenta dos limitaciones acopladas. Primero, requiere acceso directo a los logits a nivel de token del profesor, excluyendo a una amplia clase de modelos propietarios capaces de servir como profesores. Segundo, la señal de logit a nivel de token en sí es frágil, dependiendo de un estrecho solapamiento de tokens plausibles siguientes entre profesor y estudiante, y propensa a amplificar patrones degenerados como bucles de repetición. En este artículo, presentamos OmniOPD, un nuevo marco que aborda ambas limitaciones mediante una señal de supervisión a nivel de fragmentos, libre de logits. OmniOPD reemplaza el emparejamiento determinista de logits con simulaciones de Monte Carlo que aproximan las preferencias locales del profesor a través de una métrica continua de similitud semántica sobre fragmentos de múltiples tokens, y concentra esta supervisión mediante un programador de entropía máxima que audita al estudiante solo en sus bifurcaciones de razonamiento de alta incertidumbre. Un prior bayesiano de Dirichlet-Multinomial y un ancla KL del modelo base acotan aún más la varianza del muestreo discreto y previenen el colapso de la política en tokens no auditados. En benchmarks competitivos, OmniOPD supera al enfoque OPD estándar hasta en un +28.64% en matemáticas, confirmando que la verificación semántica a nivel de fragmentos extrae una señal de aprendizaje más confiable que el emparejamiento de logits a nivel de token, cuya alta densidad de información se ve compensada por un ruido y fragilidad significativos. Además, cuando se combina con profesores de caja negra más fuertes como Claude-4.5-Haiku y Gemini-2.5-Flash, OmniOPD logra un +9.54% relativo adicional en matemáticas en comparación con su contraparte de profesor de pesos abiertos, avanzando al estudiante más allá del rendimiento del RL autoexploratorio.

English

On-Policy Distillation (OPD) trains a student model on its own generative trajectories under dense token-level feedback from a stronger teacher, mitigating both the off-policy distribution shift of Supervised Fine-Tuning (SFT) and the sparse credit assignment of Reinforcement Learning (RL). However, standard OPD faces two coupled limitations. First, it requires direct access to the teacher's token-level logits, excluding a broad class of capable proprietary models from serving as teachers. Second, the token-level logit signal itself is brittle, depending on a narrow overlap of plausible next tokens between teacher and student, and prone to amplifying degenerate patterns such as repetition loops. In this paper, we introduce OmniOPD, a novel framework that addresses both limitations through a logit-free, chunk-level supervision signal. OmniOPD replaces deterministic logit matching with Monte Carlo rollouts that approximate the teacher's local preferences through a continuous semantic similarity metric over multi-token chunks, and concentrates this supervision via a peak-entropy scheduler that audits the student only at its high-uncertainty reasoning forks. A Dirichlet-Multinomial Bayesian prior and a base-model KL anchor further bound the variance of discrete sampling and prevent policy collapse across unaudited tokens. Across competitive benchmarks, OmniOPD surpasses the standard OPD approach by up to +28.64% on math, confirming that chunk-level semantic verification extracts a more reliable learning signal than token-level logit matching, whose high information density is offset by significant noise and brittleness. Furthermore, when paired with stronger black-box teachers such as Claude-4.5-Haiku and Gemini-2.5-Flash, OmniOPD achieves an additional +9.54% relative on math over its open-weight teacher counterpart, advancing the student past the performance of self-exploratory RL.