ChatPaper.aiChatPaper

OVD: 온-정책 언어 증류

OVD: On-policy Verbal Distillation

January 29, 2026
저자: Jing Xiong, Hui Shen, Shansan Gong, Yuxin Cheng, Jianghan Shen, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Ngai Wong
cs.AI

초록

지식 증류는 대규모 교사 모델의 추론 능력을 효율적인 학생 모델로 전이시키는 유망한 방법이지만, 기존의 토큰 수준 온-폴리시 증류 방법은 학생 모델과 교사 모델 간의 토큰 수준 정렬을 요구합니다. 이는 학생 모델의 탐색 능력을 제한하고, 상호작용 환경 피드백의 효과적 활용을 방해하며, 강화 학습에서 심각한 메모리 병목 현상을 초래합니다. 본 연구에서는 온-폴리시 언어적 증류(On-policy Verbal Distillation, OVD)를 소개합니다. 이는 토큰 수준 확률 매칭을 교사 모델의 이산적 언어 점수(0-9)를 활용한 경로 매칭으로 대체하는 메모리 효율적인 프레임워크입니다. OVD는 메모리 소비를 극적으로 줄이면서 언어적 피드백을 통한 교사 모델의 온-폴리시 증류를 가능하게 하며, 토큰 수준 정렬을 회피하여 학생 모델이 출력 공간을 자유롭게 탐색할 수 있도록 합니다. 웹 질의응답 및 수학적 추론 과제에 대한 폭넓은 실험 결과, OVD는 기존 방법들을 크게 능가하여 웹 Q&A 과제에서 평균 EM 기준 최대 12.9% 절대적 향상, 수학 벤치마크에서 최대 25.7% 향상(무작위 샘플 1개만으로 학습 시)을 보였으며, 동시에 뛰어난 학습 효율성을 나타냈습니다. 프로젝트 페이지는 https://OVD.github.io에서 확인할 수 있습니다.
English
Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io
PDF22February 7, 2026