ChatPaper.aiChatPaper

OVD: オン方策言語蒸留

OVD: On-policy Verbal Distillation

January 29, 2026
著者: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong
cs.AI

要旨

知識蒸留は、大規模な教師モデルから効率的な学生モデルへ推論能力を転送する有望な手法である。しかし、既存のトークンレベルの方策オン型蒸留手法では、学生モデルと教師モデルのトークンレベルでの整合性が要求されるため、学生モデルの探索能力が制限され、インタラクティブな環境フィードバックの効果的な利用が妨げられ、強化学習における深刻なメモリボトルネックが生じる。本研究では、On-policy Verbal Distillation(OVD)を提案する。これは、教師モデルからの離散的な言語評価スコア(0〜9)を用いたトークンレベルの確率マッチングを軌道マッチングに置き換える、メモリ効率の高いフレームワークである。OVDは、メモリ消費量を劇的に削減しつつ、言語的フィードバックを伴う教師モデルからの方策オン型蒸留を可能にし、トークンレベルの整合性を必要としないため、学生モデルが出力空間を自由に探索できる。Web質問応答および数学的推論タスクにおける大規模な実験により、OVDが既存手法を大幅に上回り、Web Q&Aタスクでは平均EMで最大12.9%の絶対改善を、数学ベンチマークでは(ランダムサンプル1つのみで学習した場合)最大25.7%の向上を達成し、さらに優れた学習効率を示すことが確認された。プロジェクトページはhttps://OVD.github.ioで公開されている。
English
Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io
PDF22February 7, 2026