OmniOPD: Destilação On-Policy sem Logits via Verificação Especulativa

Resumo

Destilação On-Policy (OPD) treina um modelo estudante em suas próprias trajetórias generativas sob supervisão densa de feedback em nível de token de um professor mais forte, mitigando tanto a mudança de distribuição off-policy do Ajuste Fino Supervisionado (SFT) quanto a atribuição esparsa de crédito da Aprendizagem por Reforço (RL). No entanto, a OPD padrão enfrenta duas limitações acopladas. Primeiro, ela requer acesso direto aos logits em nível de token do professor, excluindo uma ampla classe de modelos proprietários capazes de atuar como professores. Segundo, o sinal de logit em nível de token é frágil por si só, dependendo de uma sobreposição estreita de próximos tokens plausíveis entre professor e estudante, e propenso a amplificar padrões degenerados, como loops de repetição. Neste artigo, apresentamos o OmniOPD, uma nova estrutura que aborda ambas as limitações por meio de um sinal de supervisão em nível de bloco e livre de logits. O OmniOPD substitui a correspondência determinística de logits por amostragens de Monte Carlo que aproximam as preferências locais do professor por meio de uma métrica de similaridade semântica contínua sobre blocos de múltiplos tokens, e concentra essa supervisão por meio de um agendador de pico de entropia que audita o estudante apenas em suas bifurcações de raciocínio de alta incerteza. Um prior Bayesiano Dirichlet-Multinomial e uma âncora KL do modelo base ainda limitam a variância da amostragem discreta e previnem o colapso da política em tokens não auditados. Em benchmarks competitivos, o OmniOPD supera a abordagem OPD padrão em até +28,64% em matemática, confirmando que a verificação semântica em nível de bloco extrai um sinal de aprendizado mais confiável do que a correspondência de logits em nível de token, cuja alta densidade de informação é compensada por ruído e fragilidade significativos. Além disso, quando combinado com professores black-box mais fortes, como Claude-4.5-Haiku e Gemini-2.5-Flash, o OmniOPD alcança um adicional de +9,54% relativo em matemática em comparação com sua contraparte de professor de peso aberto, avançando o estudante além do desempenho da RL autoexploratória.

English

On-Policy Distillation (OPD) trains a student model on its own generative trajectories under dense token-level feedback from a stronger teacher, mitigating both the off-policy distribution shift of Supervised Fine-Tuning (SFT) and the sparse credit assignment of Reinforcement Learning (RL). However, standard OPD faces two coupled limitations. First, it requires direct access to the teacher's token-level logits, excluding a broad class of capable proprietary models from serving as teachers. Second, the token-level logit signal itself is brittle, depending on a narrow overlap of plausible next tokens between teacher and student, and prone to amplifying degenerate patterns such as repetition loops. In this paper, we introduce OmniOPD, a novel framework that addresses both limitations through a logit-free, chunk-level supervision signal. OmniOPD replaces deterministic logit matching with Monte Carlo rollouts that approximate the teacher's local preferences through a continuous semantic similarity metric over multi-token chunks, and concentrates this supervision via a peak-entropy scheduler that audits the student only at its high-uncertainty reasoning forks. A Dirichlet-Multinomial Bayesian prior and a base-model KL anchor further bound the variance of discrete sampling and prevent policy collapse across unaudited tokens. Across competitive benchmarks, OmniOPD surpasses the standard OPD approach by up to +28.64% on math, confirming that chunk-level semantic verification extracts a more reliable learning signal than token-level logit matching, whose high information density is offset by significant noise and brittleness. Furthermore, when paired with stronger black-box teachers such as Claude-4.5-Haiku and Gemini-2.5-Flash, OmniOPD achieves an additional +9.54% relative on math over its open-weight teacher counterpart, advancing the student past the performance of self-exploratory RL.