Distilación de Políticas Híbrida para Modelos de Lenguaje Grandes
Hybrid Policy Distillation for LLMs
April 22, 2026
Autores: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu
cs.AI
Resumen
La destilación de conocimiento (KD) es un paradigma poderoso para comprimir modelos de lenguaje grandes (LLMs), cuya efectividad depende de elecciones interrelacionadas de dirección de divergencia, estrategia de optimización y régimen de datos. Desglosamos el diseño de los métodos de KD existentes y presentamos una visión unificada que establece conexiones entre ellos, reformulando la KD como un objetivo de verosimilitud logarítmica ponderada a nivel de token. Además, proponemos la Destilación de Políticas Híbrida (HPD), que integra las ventajas complementarias de la KL directa e inversa para equilibrar la cobertura de modos y la búsqueda de modos, y combina datos fuera de política con un muestreo dentro de política aproximado y de bajo costo. Validamos HPD en razonamiento matemático de generación larga, así como en tareas de diálogo y código de generación corta, demostrando una estabilidad de optimización, eficiencia computacional y rendimiento final mejorados en diversas familias y escalas de modelos. El código relacionado con este trabajo está disponible en https://github.com/zwhong714/Hybrid-Policy-Distillation.
English
Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.