ChatPaper.aiChatPaper

Hybride Policy Distillation für LLMs

Hybrid Policy Distillation for LLMs

April 22, 2026
Autoren: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu
cs.AI

Zusammenfassung

Wissensdistillation (KD) ist ein leistungsfähiges Paradigma zur Komprimierung großer Sprachmodelle (LLMs), dessen Wirksamkeit von miteinander verwobenen Entscheidungen bezüglich Divergenzrichtung, Optimierungsstrategie und Datenregime abhängt. Wir zerlegen das Design bestehender KD-Methoden und präsentieren eine einheitliche Sichtweise, die Verbindungen zwischen ihnen herstellt, indem wir KD als ein neu gewichtetes Log-Likelihood-Ziel auf Token-Ebene reformulieren. Wir schlagen weiterhin Hybride Policy-Distillation (HPD) vor, die die komplementären Vorteile der Vorwärts- und Rückwärts-KL-Integration vereint, um Modusabdeckung und Modussuche auszugleichen, und Off-Policy-Daten mit leichtgewichtiger, approximativer On-Policy-Stichprobenziehung kombiniert. Wir validieren HPD anhand von mathematischem Reasoning mit langen Generationen sowie Dialog- und Code-Aufgaben mit kurzen Generationen und demonstrieren verbesserte Optimierungsstabilität, Recheneffizienz und Endleistung über verschiedene Modellfamilien und -skalen hinweg. Der zu dieser Arbeit gehörende Code ist unter https://github.com/zwhong714/Hybrid-Policy-Distillation verfügbar.
English
Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.
PDF91April 25, 2026