OmniOPD: Logit-vrije On-Policy Distillatie via Speculatieve Verificatie

Samenvatting

Beleidsgetrouwe Distillatie (OPD) traint een studentmodel op zijn eigen generatieve trajecten onder dichte token-niveau feedback van een sterker leraar, waarbij zowel de off-policy distributieverschuiving van Supervised Fine-Tuning (SFT) als de spaarzame krediettoewijzing van Reinforcement Learning (RL) worden beperkt. Standaard OPD kampt echter met twee gekoppelde beperkingen. Ten eerste vereist het directe toegang tot de token-niveau logits van de leraar, waardoor een brede klasse van capabele propriëtaire modellen als leraar wordt uitgesloten. Ten tweede is het token-niveau logitsignaal zelf broos, afhankelijk van een smalle overlap van plausibele volgende tokens tussen leraar en student, en gevoelig voor het versterken van degeneratieve patronen zoals herhalingslussen. In dit artikel introduceren we OmniOPD, een nieuw raamwerk dat beide beperkingen aanpakt via een logit-vrij, chunk-niveau supervisiesignaal. OmniOPD vervangt deterministische logit-matching door Monte Carlo-rollouts die de lokale voorkeuren van de leraar benaderen via een continue semantische gelijkenismetriek over meerdere token-chunks, en concentreert deze supervisie via een piek-entropieplanner die de student alleen controleert bij zijn redeneerpunten met hoge onzekerheid. Een Dirichlet-Multinomial Bayesiaanse prior en een KL-anker van het basismodel begrenzen verder de variantie van discrete sampling en voorkomen beleidsinstorting over ongecontroleerde tokens. In competitieve benchmarks overtreft OmniOPD de standaard OPD-aanpak met maximaal +28,64% op wiskunde, wat bevestigt dat chunk-niveau semantische verificatie een betrouwbaarder leersignaal oplevert dan token-niveau logit-matching, waarvan de hoge informatiedichtheid wordt geneutraliseerd door aanzienlijke ruis en broosheid. Bovendien, wanneer gekoppeld aan sterkere black-box leraren zoals Claude-4.5-Haiku en Gemini-2.5-Flash, behaalt OmniOPD een extra relatieve +9,54% op wiskunde ten opzichte van zijn open-gewicht leraar-tegenhanger, waarmee de student verder wordt gebracht dan de prestaties van zelfverkennende RL.

English

On-Policy Distillation (OPD) trains a student model on its own generative trajectories under dense token-level feedback from a stronger teacher, mitigating both the off-policy distribution shift of Supervised Fine-Tuning (SFT) and the sparse credit assignment of Reinforcement Learning (RL). However, standard OPD faces two coupled limitations. First, it requires direct access to the teacher's token-level logits, excluding a broad class of capable proprietary models from serving as teachers. Second, the token-level logit signal itself is brittle, depending on a narrow overlap of plausible next tokens between teacher and student, and prone to amplifying degenerate patterns such as repetition loops. In this paper, we introduce OmniOPD, a novel framework that addresses both limitations through a logit-free, chunk-level supervision signal. OmniOPD replaces deterministic logit matching with Monte Carlo rollouts that approximate the teacher's local preferences through a continuous semantic similarity metric over multi-token chunks, and concentrates this supervision via a peak-entropy scheduler that audits the student only at its high-uncertainty reasoning forks. A Dirichlet-Multinomial Bayesian prior and a base-model KL anchor further bound the variance of discrete sampling and prevent policy collapse across unaudited tokens. Across competitive benchmarks, OmniOPD surpasses the standard OPD approach by up to +28.64% on math, confirming that chunk-level semantic verification extracts a more reliable learning signal than token-level logit matching, whose high information density is offset by significant noise and brittleness. Furthermore, when paired with stronger black-box teachers such as Claude-4.5-Haiku and Gemini-2.5-Flash, OmniOPD achieves an additional +9.54% relative on math over its open-weight teacher counterpart, advancing the student past the performance of self-exploratory RL.