Distillation de Politique Hybride pour les LLMs
Hybrid Policy Distillation for LLMs
April 22, 2026
Auteurs: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu
cs.AI
Résumé
La distillation des connaissances (KD) est un paradigme puissant pour compresser les grands modèles de langage (LLM), dont l'efficacité dépend de choix entrelacés concernant la direction de divergence, la stratégie d'optimisation et le régime de données. Nous décomposons la conception des méthodes de KD existantes et présentons une vue unifiée qui établit des connexions entre elles, en reformulant la KD comme un objectif de vraisemblance logique repondérée au niveau du token. Nous proposons en outre la Distillation de Politique Hybride (HPD), qui intègre les avantages complémentaires des KL forward et reverse pour équilibrer la couverture des modes et la recherche de mode, et combine des données hors politique avec un échantillonnage léger et approximatif sur politique. Nous validons HPD sur le raisonnement mathématique à génération longue ainsi que sur des tâches de dialogue et de code à génération courte, démontrant une stabilité d'optimisation, une efficacité computationnelle et des performances finales améliorées, et ceci pour diverses familles et échelles de modèles. Le code associé à ces travaux est disponible à l'adresse https://github.com/zwhong714/Hybrid-Policy-Distillation.
English
Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.