OVD: Destilação Verbal On-policy
OVD: On-policy Verbal Distillation
January 29, 2026
Autores: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong
cs.AI
Resumo
A destilação de conhecimento oferece um caminho promissor para transferir capacidades de raciocínio de grandes modelos professores para modelos estudantes eficientes; no entanto, os métodos existentes de destilação *on-policy* a nível de token exigem um alinhamento a nível de token entre os modelos estudante e professor, o que restringe a capacidade de exploração do modelo estudante, impede o uso eficaz do *feedback* do ambiente interativo e sofre de graves estrangulamentos de memória no aprendizado por reforço. Introduzimos a Destilação Verbal *On-policy* (OVD), uma estrutura eficiente em memória que substitui o emparelhamento de probabilidades a nível de token pelo emparelhamento de trajetórias usando pontuações verbais discretas (0-9) de modelos professores. A OVD reduz drasticamente o consumo de memória, permitindo ao mesmo tempo a destilação *on-policy* a partir de modelos professores com *feedback* verbal, e evita o alinhamento a nível de token, permitindo que o modelo estudante explore livremente o espaço de saída. Experimentos extensivos em tarefas de perguntas e respostas na Web e de raciocínio matemático mostram que a OVD supera substancialmente os métodos existentes, proporcionando uma melhoria absoluta de até +12,9% na EM média em tarefas de Perguntas e Respostas na Web e um ganho de até +25,7% em *benchmarks* de matemática (quando treinada com apenas uma amostra aleatória), exibindo também uma eficiência de treinamento superior. Nossa página do projeto está disponível em https://OVD.github.io.
English
Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io