OVD: Он-политическая вербальная дистилляция
OVD: On-policy Verbal Distillation
January 29, 2026
Авторы: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong
cs.AI
Аннотация
Дистилляция знаний предлагает перспективный путь передачи способностей к рассуждению от больших моделей-учителей к эффективным моделям-ученикам; однако существующие методы он-политик дистилляции на уровне токенов требуют выравнивания на уровне токенов между моделями ученика и учителя, что ограничивает способность модели ученика к исследованию, препятствует эффективному использованию обратной связи от интерактивной среды и приводит к серьезным проблемам с пропускной способностью памяти при обучении с подкреплением. Мы представляем On-policy Verbal Distillation (OVD) — ресурсосберегающий фреймворк, который заменяет вероятностное сопоставление на уровне токенов на сопоставление траекторий с использованием дискретных вербальных оценок (0–9) от моделей-учителей. OVD значительно сокращает потребление памяти, позволяя проводить он-политик дистилляцию от моделей-учителей с вербальной обратной связью, и избегает выравнивания на уровне токенов, что позволяет модели-ученику свободно исследовать пространство ответов. Многочисленные эксперименты на задачах веб-вопросов и ответов и математических рассуждений показывают, что OVD существенно превосходит существующие методы, демонстрируя до +12,9% абсолютного улучшения по среднему EM на задачах Web Q&A и до +25,7% прироста на математических бенчмарках (при обучении всего на одном случайном примере), а также обладая превосходной эффективностью обучения. Страница проекта доступна по адресу https://OVD.github.io.
English
Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io