ChatPaper.aiChatPaper

OVD : Distillation Verbale Sur-Politique

OVD: On-policy Verbal Distillation

January 29, 2026
papers.authors: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong
cs.AI

papers.abstract

La distillation des connaissances offre une voie prometteuse pour transférer les capacités de raisonnement des grands modèles enseignants vers des modèles étudiants efficients. Cependant, les méthodes existantes de distillation sur la politique au niveau des tokens nécessitent un alignement token par token entre les modèles étudiant et enseignant, ce qui restreint la capacité d'exploration du modèle étudiant, empêche une utilisation efficace des retours de l'environnement interactif et souffre de sévères goulots d'étranglement mémoire en apprentissage par renforcement. Nous introduisons la Distillation Verbale sur la Politique (OVD), un cadre efficace en mémoire qui remplace l'appariement des probabilités au niveau des tokens par un appariement des trajectoires utilisant des scores verbaux discrets (0–9) provenant des modèles enseignants. OVD réduit considérablement la consommation mémoire tout en permettant une distillation sur la politique à partir de modèles enseignants avec un retour verbal, et évite l'alignement au niveau des tokens, permettant au modèle étudiant d'explorer librement l'espace de sortie. Des expériences approfondies sur des tâches de question-réponse sur le Web et de raisonnement mathématique montrent qu'OVD surpasse substantiellement les méthodes existantes, offrant jusqu'à +12,9 % d'amélioration absolue de la moyenne EM sur les tâches de Q&R Web et un gain allant jusqu'à +25,7 % sur les benchmarks mathématiques (lorsqu'elle est entraînée avec seulement un échantillon aléatoire), tout en présentant une efficacité d'entraînement supérieure. Notre page projet est disponible à l'adresse https://OVD.github.io.
English
Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io
PDF22February 7, 2026