OmniOPD: Logitfreie On-Policy-Destillation durch spekulative Verifikation

Zusammenfassung

On-Policy-Destillation (OPD) trainiert ein Schülermodell auf seinen eigenen generativen Trajektorien unter dichtem Token-Level-Feedback eines stärkeren Lehrers und mildert sowohl den Off-Policy-Verteilungsversatz des überwachten Feintunings (SFT) als auch die dünne Kreditzuweisung des Verstärkungslernens (RL). Allerdings hat die standardmäßige OPD zwei miteinander verbundene Einschränkungen. Erstens erfordert sie direkten Zugriff auf die Token-Level-Logits des Lehrers, wodurch eine breite Klasse leistungsfähiger proprietärer Modelle als Lehrer ausgeschlossen wird. Zweitens ist das Token-Level-Logit-Signal selbst brüchig, da es auf einer schmalen Überschneidung plausibler nächster Token zwischen Lehrer und Schüler beruht und dazu neigt, degenerierte Muster wie Wiederholungsschleifen zu verstärken. In diesem Artikel stellen wir OmniOPD vor, ein neuartiges Rahmenwerk, das beide Einschränkungen durch ein logitfreies Chunk-Level-Supervisionssignal adressiert. OmniOPD ersetzt deterministisches Logit-Matching durch Monte-Carlo-Rollouts, die die lokalen Präferenzen des Lehrers über eine kontinuierliche semantische Ähnlichkeitsmetrik für Multi-Token-Blöcke approximieren, und konzentriert diese Supervision durch einen Peak-Entropie-Scheduler, der den Schüler nur an seinen hochunsicheren Entscheidungsgabelungen prüft. Ein Dirichlet-Multinomial-Bayes-Prior und ein KL-Anker des Basismodells begrenzen zusätzlich die Varianz des diskreten Samplings und verhindern einen Politikkollaps über nicht geprüfte Token hinweg. In wettbewerbsorientierten Benchmarks übertrifft OmniOPD den Standard-OPD-Ansatz bei Mathematik um bis zu +28,64 %, was bestätigt, dass Chunk-Level-semantische Verifikation ein zuverlässigeres Lernsignal extrahiert als Token-Level-Logit-Matching, dessen hohe Informationsdichte durch erhebliches Rauschen und Brüchigkeit aufgewogen wird. Darüber hinaus erzielt OmniOPD in Kombination mit stärkeren Black-Box-Lehrern wie Claude-4.5-Haiku und Gemini-2.5-Flash bei Mathematik einen relativen Zugewinn von +9,54 % gegenüber seinem Pendant mit offenen Gewichten und bringt den Schüler über die Leistung des selbstexplorierenden RL hinaus.

English

On-Policy Distillation (OPD) trains a student model on its own generative trajectories under dense token-level feedback from a stronger teacher, mitigating both the off-policy distribution shift of Supervised Fine-Tuning (SFT) and the sparse credit assignment of Reinforcement Learning (RL). However, standard OPD faces two coupled limitations. First, it requires direct access to the teacher's token-level logits, excluding a broad class of capable proprietary models from serving as teachers. Second, the token-level logit signal itself is brittle, depending on a narrow overlap of plausible next tokens between teacher and student, and prone to amplifying degenerate patterns such as repetition loops. In this paper, we introduce OmniOPD, a novel framework that addresses both limitations through a logit-free, chunk-level supervision signal. OmniOPD replaces deterministic logit matching with Monte Carlo rollouts that approximate the teacher's local preferences through a continuous semantic similarity metric over multi-token chunks, and concentrates this supervision via a peak-entropy scheduler that audits the student only at its high-uncertainty reasoning forks. A Dirichlet-Multinomial Bayesian prior and a base-model KL anchor further bound the variance of discrete sampling and prevent policy collapse across unaudited tokens. Across competitive benchmarks, OmniOPD surpasses the standard OPD approach by up to +28.64% on math, confirming that chunk-level semantic verification extracts a more reliable learning signal than token-level logit matching, whose high information density is offset by significant noise and brittleness. Furthermore, when paired with stronger black-box teachers such as Claude-4.5-Haiku and Gemini-2.5-Flash, OmniOPD achieves an additional +9.54% relative on math over its open-weight teacher counterpart, advancing the student past the performance of self-exploratory RL.