Hybride Beleidsdistillatie voor LLM's
Hybrid Policy Distillation for LLMs
April 22, 2026
Auteurs: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu
cs.AI
Samenvatting
Kennisdistillatie (KD) is een krachtig paradigma voor het comprimeren van grote taalmodel(len) (LLM's), waarvan de effectiviteit afhangt van verweven keuzes op het gebied van divergentierichting, optimalisatiestrategie en dataregime. We ontleden het ontwerp van bestaande KD-methoden en presenteren een geïntegreerde visie die verbanden legt tussen hen, waarbij we KD herformuleren als een hergewogen log-waarschijnlijkheidsdoelstelling op tokenniveau. We stellen verder Hybride Beleidsdistillatie (HPD) voor, dat de complementaire voordelen van voorwaartse en reverse KL integreert om modusdekking en moduszoeken in evenwicht te brengen, en off-policy data combineert met lichtgewicht, benaderende on-policy bemonstering. We valideren HPD op wiskundig redeneren met lange generatie evenals op dialoog- en codetaken met korte generatie, waarbij we verbeterde optimalisatiestabiliteit, computationele efficiëntie en uiteindelijke prestaties aantonen across diverse modelfamilies en schalen. De code gerelateerd aan dit werk is beschikbaar op https://github.com/zwhong714/Hybrid-Policy-Distillation.
English
Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.