OVD: Destilación Verbal en la Política Actual
OVD: On-policy Verbal Distillation
January 29, 2026
Autores: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong
cs.AI
Resumen
La destilación de conocimiento ofrece una vía prometedora para transferir capacidades de razonamiento desde modelos docentes grandes a modelos estudiantiles eficientes; sin embargo, los métodos existentes de destilación *on-policy* a nivel de tokens requieren una alineación a nivel de tokens entre los modelos estudiante y docente, lo que restringe la capacidad de exploración del modelo estudiante, impide el uso efectivo de la retroalimentación del entorno interactivo y sufre graves cuellos de botella de memoria en el aprendizaje por refuerzo. Introducimos la Destilación Verbal *On-policy* (OVD), un marco eficiente en memoria que reemplaza la coincidencia de probabilidades a nivel de tokens con una coincidencia de trayectorias utilizando puntuaciones verbales discretas (0-9) de los modelos docentes. OVD reduce drásticamente el consumo de memoria al tiempo que permite la destilación *on-policy* a partir de modelos docentes con retroalimentación verbal, y evita la alineación a nivel de tokens, permitiendo que el modelo estudiante explore libremente el espacio de salida. Experimentos exhaustivos en tareas de respuesta a preguntas web y de razonamiento matemático muestran que OVD supera sustancialmente a los métodos existentes, logrando una mejora absoluta de hasta +12.9% en EM promedio en tareas de preguntas y respuestas web y una ganancia de hasta +25.7% en benchmarks matemáticos (cuando se entrena con solo una muestra aleatoria), además de exhibir una eficiencia de entrenamiento superior. Nuestra página del proyecto está disponible en https://OVD.github.io.
English
Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io