OVD: Distillazione Verbale On-policy
OVD: On-policy Verbal Distillation
January 29, 2026
Autori: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong
cs.AI
Abstract
La distillazione della conoscenza offre una prospettiva promettente per trasferire le capacità di ragionamento da modelli insegnante di grandi dimensioni a modelli studente efficienti; tuttavia, i metodi di distillazione on-policy a livello di token esistenti richiedono un allineamento a livello di token tra i modelli studente e insegnante, il che limita la capacità di esplorazione del modello studente, impedisce l'uso efficace del feedback proveniente da ambienti interattivi e soffre di severi colli di bottiglia della memoria nell'apprendimento per rinforzo. Introduciamo On-policy Verbal Distillation (OVD), un framework efficiente in termini di memoria che sostituisce la corrispondenza delle probabilità a livello di token con una corrispondenza delle traiettorie utilizzando punteggi verbali discreti (0-9) provenienti dai modelli insegnante. OVD riduce drasticamente il consumo di memoria consentendo al contempo la distillazione on-policy da modelli insegnante con feedback verbale ed evita l'allineamento a livello di token, permettendo al modello studente di esplorare liberamente lo spazio degli output. Esperimenti estensivi su attività di question answering sul Web e di ragionamento matematico mostrano che OVD supera sostanzialmente i metodi esistenti, ottenendo un miglioramento assoluto fino a +12,9% nella EM media sui task di Web Q&A e un guadagno fino a +25,7% sui benchmark matematici (quando addestrato con un solo campione casuale), dimostrando al contempo una superiore efficienza di addestramento. La nostra pagina del progetto è disponibile all'indirizzo https://OVD.github.io.
English
Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io