ChatPaper.aiChatPaper

대규모 언어 모델을 위한 하이브리드 정책 증류

Hybrid Policy Distillation for LLMs

April 22, 2026
저자: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu
cs.AI

초록

지식 증류(KD)는 대규모 언어 모델(LLM)을 압축하기 위한 강력한 패러다임으로, 그 효과는 발산 방향, 최적화 전략, 데이터 체계의 복잡한 선택에 따라 달라집니다. 본 연구는 기존 KD 방법의 설계를 분석하고 이를 연결하는 통합된 시각을 제시하며, KD를 토큰 수준에서 재가중된 로그 우도 목적 함수로 재정의합니다. 나아가 정방향 및 역방향 KL의 상호 보완적 장점을 통합하여 모드 커버리지와 모드 탐색 간의 균형을 맞추고, 오프-폴리시 데이터와 경량화된 근사 온-폴리시 샘플링을 결합한 하이브리드 정책 증류(HPD)를 제안합니다. 우리는 HPD를 장문 생성 수학 추론 과제 및 단문 생성 대화 및 코드 과제에서 검증하여, 다양한 모델 패밀리와 규모에서 최적화 안정성, 계산 효율성 및 최종 성능이 개선됨을 입증합니다. 본 연구와 관련된 코드는 https://github.com/zwhong714/Hybrid-Policy-Distillation에서 확인할 수 있습니다.
English
Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.
PDF91April 25, 2026