ChatPaper.aiChatPaper

大規模言語モデルのためのハイブリッド政策蒸留

Hybrid Policy Distillation for LLMs

April 22, 2026
著者: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu
cs.AI

要旨

知識蒸留(KD)は大規模言語モデル(LLM)を圧縮するための強力なパラダイムであり、その有効性は、発散の方向性、最適化戦略、データ体制という複雑に絡み合った選択に依存する。本論文では、既存のKD手法の設計を分解し、それらの間の関連性を確立する統一的な視点を提示し、KDをトークンレベルでの再重み付き対数尤度目的関数として再定式化する。さらに、我々はHybrid Policy Distillation(HPD)を提案する。HPDは、フォワードKLとリバースKLの相補的利点を統合してモード coverage とモード seeking のバランスを取るとともに、オフポリシーデータと軽量な近似オンポリシーサンプリングを組み合わせる。長文生成の数学推論タスク、および短文生成の対話タスクとコードタスクにおいてHPDを検証し、多様なモデルファミリーとスケールにわたって、最適化の安定性、計算効率、最終性能が向上することを実証する。本研究成果に関連するコードは https://github.com/zwhong714/Hybrid-Policy-Distillation で公開されている。
English
Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.
PDF91April 25, 2026