ChatPaper.aiChatPaper

OVD: On-policy Verbal Distillation

OVD: On-policy Verbal Distillation

January 29, 2026
papers.authors: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong
cs.AI

papers.abstract

Wissensdistillation bietet einen vielversprechenden Ansatz, um Reasoning-Fähigkeiten von großen Lehrer- zu effizienten Schülermodellen zu übertragen. Bestehende On-Policy-Distillationsmethoden auf Token-Ebene erfordern jedoch eine Token-für-Token-Ausrichtung zwischen Schüler- und Lehrermodellen. Dies schränkt die Explorationsfähigkeit des Schülermodells ein, verhindert die effektive Nutzung von Feedback aus interaktiven Umgebungen und führt zu erheblichen Memory-Engpässen beim Reinforcement Learning. Wir stellen On-policy Verbal Distillation (OVD) vor, einen speichereffizienten Rahmen, der die Wahrscheinlichkeitsabgleichung auf Token-Ebene durch einen Trajektorienabgleich mittels diskreter verbaler Bewertungen (0–9) der Lehrermodelle ersetzt. OVD reduziert den Speicherverbrauch drastisch, ermöglicht On-Policy-Distillation mit verbalem Feedback von Lehrermodellen und umgeht die Notwendigkeit einer Token-Level-Ausrichtung, wodurch das Schülermodell den Ausgaberaum frei explorieren kann. Umfangreiche Experimente zu Web-Frage-Antwort-Aufgaben und mathematischem Reasoning zeigen, dass OVD bestehende Methoden erheblich übertrifft: Es erzielt einen absoluten Anstieg des durchschnittlichen EM-Scores von bis zu +12,9 % bei Web-Q&A-Aufgaben und einen Zuwachs von bis zu +25,7 % auf mathematischen Benchmarks (selbst bei Training mit nur einer zufälligen Stichprobe), bei gleichzeitig überlegener Trainingseffizienz. Unsere Projektseite ist unter https://OVD.github.io verfügbar.
English
Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io
PDF22February 7, 2026