ChatPaper.aiChatPaper

대규모 언어 모델을 위한 온-정책 디스틸레이션 연구 동향

A Survey of On-Policy Distillation for Large Language Models

April 1, 2026
저자: Mingyang Song, Mao Zheng
cs.AI

초록

지식 증류는 최첨단 대규모 언어 모델(LLM)의 추론 능력과 도메인 전문성을 더 작고 배포 가능한 학생 모델로 전달하는 주요 메커니즘으로 자리 잡았습니다. 그러나 현재 지배적인 패러다임은 오프-폴리시 방식에 머물러 있습니다: 학생 모델은 정적으로 생성된 교사 모델의 데이터로 학습하며, 학습 과정에서 자신의 오류를 직접 접하지 않습니다. 이러한 학습-추론 불일치는 노출 편향의 한 사례로서, 추론 시점에 예측 오류가 자기회귀적으로 누적되는 결과를 초래합니다. 온-폴리시 증류(OPD)는 학생 모델이 자신의 궤적을 생성하고 이러한 자기 생성 출력에 대해 교사 모델의 피드백을 받도록 함으로써 이 문제를 해결하며, 상호작용적 모방 학습 이론에 기반하여 증류를 견고하게 합니다. 발산 최소화, 보상 유도 학습, 자기 경쟁 등을 아우르며 급속히 성장했음에도 불구하고, OPD 관련 연구는 통합된 관점 없이 파편화된 상태입니다. 본 설문 논문은 LLM을 위한 OPD에 대한 최초의 포괄적인 개요를 제공합니다. 우리는 온-폴리시 샘플에 대한 통합 f-발산 프레임워크를 소개하고, 이를 세 가지 직교하는 차원—피드백 신호(로그잇 기반, 결과 기반, 자기 경쟁), 교사 접근성(화이트박스, 블랙박스, 교사 무관), 손실 세분성(토큰 수준, 시퀀스 수준, 혼합)—을 따라 연구 현황을 체계화합니다. 우리는 대표적인 방법론을 체계적으로 분석하고, 산업 현장의 적용 사례를 검토하며, 증류 스케일링 법칙, 불확실성 인식 피드백, 에이전트 수준 증류 등을 포함한 미해결 과제를 도출합니다.
English
Knowledge distillation has become a primary mechanism for transferring reasoning and domain expertise from frontier Large Language Models (LLMs) to smaller, deployable students. However, the dominant paradigm remains off-policy: students train on static teacher-generated data and never encounter their own errors during learning. This train--test mismatch, an instance of exposure bias, causes prediction errors to compound autoregressively at inference time. On-Policy Distillation (OPD) addresses this by letting the student generate its own trajectories and receive teacher feedback on these self-generated outputs, grounding distillation in the theory of interactive imitation learning. Despite rapid growth spanning divergence minimization, reward-guided learning, and self-play, the OPD literature remains fragmented with no unified treatment. This survey provides the first comprehensive overview of OPD for LLMs. We introduce a unified f-divergence framework over on-policy samples and organize the landscape along three orthogonal dimensions: feedback signal (logit-based, outcome-based, or self-play), teacher access (white-box, black-box, or teacher-free), and loss granularity (token-level, sequence-level, or hybrid). We systematically analyze representative methods, examine industrial deployments, and identify open problems including distillation scaling laws, uncertainty-aware feedback, and agent-level distillation.
PDF41April 3, 2026