ChatPaper.aiChatPaper

Distilação de Políticas Híbrida para LLMs

Hybrid Policy Distillation for LLMs

April 22, 2026
Autores: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu
cs.AI

Resumo

A destilação de conhecimento (KD) é um paradigma poderoso para comprimir grandes modelos de linguagem (LLMs), cuja eficácia depende de escolhas interligadas de direção de divergência, estratégia de otimização e regime de dados. Desagregamos o projeto dos métodos de KD existentes e apresentamos uma visão unificada que estabelece conexões entre eles, reformulando a KD como um objetivo de verossimilhança logarítmica ponderada ao nível do *token*. Propomos ainda a Destilação de Política Híbrida (HPD), que integra as vantagens complementares do KL direto e reverso para equilibrar a cobertura de modos e a busca de modos, e combina dados *off-policy* com uma amostragem *on-policy* leve e aproximada. Validamos a HPD em raciocínio matemático de geração longa, bem como em tarefas de diálogo e código de geração curta, demonstrando melhoria na estabilidade de otimização, eficiência computacional e desempenho final em diversas famílias e escalas de modelos. O código relacionado a este trabalho está disponível em https://github.com/zwhong714/Hybrid-Policy-Distillation.
English
Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.
PDF91April 25, 2026