ChatPaper.aiChatPaper

Гибридное дистилляционное обучение политик для больших языковых моделей

Hybrid Policy Distillation for LLMs

April 22, 2026
Авторы: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu
cs.AI

Аннотация

Дистилляция знаний (KD) представляет собой мощный подход к сжатию больших языковых моделей (LLM), эффективность которого зависит от взаимосвязанного выбора направления дивергенции, стратегии оптимизации и режима данных. Мы анализируем архитектуру существующих методов KD и представляем унифицированный взгляд, устанавливающий связи между ними, переформулируя KD как взвешенную задачу логарифмического правдоподобия на уровне токенов. Далее мы предлагаем Гибридную дистилляцию политик (HPD), которая интегрирует комплементарные преимущества прямого и обратного KL-расхождения для балансировки охвата мод и их поиска, а также сочетает внеполитичные данные с легковесным, приближенным он-политичным сэмплированием. Мы проверяем HPD на задачах математических рассуждений с длинной генерацией, а также на диалоговых задачах и задачах генерации кода с короткой генерацией, демонстрируя улучшенную стабильность оптимизации, вычислительную эффективность и итоговую производительность для различных семейств и масштабов моделей. Код, связанный с данной работой, доступен по адресу https://github.com/zwhong714/Hybrid-Policy-Distillation.
English
Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.
PDF91April 25, 2026