OmniOPD: Логит-свободная дистилляция на политике посредством спекулятивной верификации

Аннотация

Дистилляция на политике (On-Policy Distillation, OPD) обучает студенческую модель на её собственных генеративных траекториях с использованием плотной обратной связи на уровне токенов от более сильного учителя, устраняя как смещение распределения вне политики при контролируемой тонкой настройке (Supervised Fine-Tuning, SFT), так и разреженное назначение кредитов при обучении с подкреплением (Reinforcement Learning, RL). Однако стандартная OPD сталкивается с двумя взаимосвязанными ограничениями. Во-первых, она требует прямого доступа к логитам учителя на уровне токенов, что исключает широкий класс мощных проприетарных моделей из числа потенциальных учителей. Во-вторых, сам сигнал логитов на уровне токенов является хрупким, зависящим от узкого пересечения правдоподобных следующих токенов между учителем и студентом, и склонен к усилению дегенеративных паттернов, таких как повторы циклов. В данной работе мы представляем OmniOPD — новую структуру, устраняющую оба ограничения за счёт сигнала супервизии на уровне чанков без использования логитов. OmniOPD заменяет детерминированное сопоставление логитов розыгрышами Монте-Карло, которые аппроксимируют локальные предпочтения учителя через непрерывную метрику семантического сходства над мультитокенными чанками, и концентрирует эту супервизию с помощью планировщика пиковой энтропии, который проверяет студента только на его развилках рассуждений с высокой неопределённостью. Байесовский априор Дирихле-Мультиномиальное и KL-якорь базовой модели дополнительно ограничивают дисперсию дискретной выборки и предотвращают коллапс политики в отношении непроверенных токенов. В соревновательных бенчмарках OmniOPD превосходит стандартный подход OPD на величину до +28.64% по математике, подтверждая, что семантическая верификация на уровне чанков извлекает более надёжный обучающий сигнал, чем сопоставление логитов на уровне токенов, чья высокая информационная плотность компенсируется значительным шумом и хрупкостью. Кроме того, в паре с более сильными чёрными ящиками-учителями, такими как Claude-4.5-Haiku и Gemini-2.5-Flash, OmniOPD достигает дополнительного относительного прироста в +9.54% по математике по сравнению со своим аналогом с открытыми весами, продвигая студента за пределы производительности самоисследовательского RL.

English

On-Policy Distillation (OPD) trains a student model on its own generative trajectories under dense token-level feedback from a stronger teacher, mitigating both the off-policy distribution shift of Supervised Fine-Tuning (SFT) and the sparse credit assignment of Reinforcement Learning (RL). However, standard OPD faces two coupled limitations. First, it requires direct access to the teacher's token-level logits, excluding a broad class of capable proprietary models from serving as teachers. Second, the token-level logit signal itself is brittle, depending on a narrow overlap of plausible next tokens between teacher and student, and prone to amplifying degenerate patterns such as repetition loops. In this paper, we introduce OmniOPD, a novel framework that addresses both limitations through a logit-free, chunk-level supervision signal. OmniOPD replaces deterministic logit matching with Monte Carlo rollouts that approximate the teacher's local preferences through a continuous semantic similarity metric over multi-token chunks, and concentrates this supervision via a peak-entropy scheduler that audits the student only at its high-uncertainty reasoning forks. A Dirichlet-Multinomial Bayesian prior and a base-model KL anchor further bound the variance of discrete sampling and prevent policy collapse across unaudited tokens. Across competitive benchmarks, OmniOPD surpasses the standard OPD approach by up to +28.64% on math, confirming that chunk-level semantic verification extracts a more reliable learning signal than token-level logit matching, whose high information density is offset by significant noise and brittleness. Furthermore, when paired with stronger black-box teachers such as Claude-4.5-Haiku and Gemini-2.5-Flash, OmniOPD achieves an additional +9.54% relative on math over its open-weight teacher counterpart, advancing the student past the performance of self-exploratory RL.