Переосмысление дистилляции больших языковых моделей: перспектива ограниченных марковских процессов принятия решений
Rethinking Large Language Model Distillation: A Constrained Markov Decision Process Perspective
September 26, 2025
Авторы: Matthieu Zimmer, Xiaotong Ji, Tu Nguyen, Haitham Bou Ammar
cs.AI
Аннотация
Мы представляем новый подход к дистилляции больших языковых моделей (LLM), формулируя её как задачу ограниченного обучения с подкреплением. Хотя в последних работах начали исследовать интеграцию специфичных для задачи наград в процессы дистилляции, существующие методы обычно полагаются на эмпирическое взвешивание наград. Мы предлагаем принципиальную оптимизационную структуру, которая максимизирует специфичные для задачи награды, ограничивая при этом расхождение с учительской моделью ниже заданного порога. Наш подход адаптирует метод ограниченного обучения с подкреплением с расширением состояния к настройке дистилляции, вводя модифицированную функцию награды, которая сохраняет теоретические гарантии выполнения ограничений без необходимости расширения состояния или доступа к учительской модели во время развёртывания, а также без вычислительных затрат методов двойственного лагранжиана. В ходе обширных экспериментов на задачах математического рассуждения мы демонстрируем, что наш метод достигает лучших показателей выполнения ограничений и более качественного рассуждения по сравнению с базовыми методами мягкого лагранжева релаксации, сохраняя при этом конкурентоспособные результаты выполнения задач. Наша структура предлагает теоретически обоснованное и практически эффективное решение для дистилляции с учётом наград в условиях ограниченных ресурсов.
English
We introduce a novel approach to large language model (LLM) distillation by
formulating it as a constrained reinforcement learning problem. While recent
work has begun exploring the integration of task-specific rewards into
distillation processes, existing methods typically rely on ad-hoc reward
weighting. We propose a principled optimization framework that maximizes
task-specific rewards while constraining the divergence from the teacher model
to remain below a specified threshold. Our approach adapts constrained state
augmented reinforcement learning to the distillation setting, introducing a
modified reward function that maintains theoretical guarantees of constraint
satisfaction without requiring state augmentation or teacher model access
during deployment and without the computational overhead of the dual Lagrangian
methods. Through extensive experiments on mathematical reasoning tasks, we
demonstrate that our method achieves better constraint satisfaction rates and
better reasoning compared to the soft Lagrangian relaxation baselines while
maintaining competitive task performance. Our framework provides a
theoretically grounded and practically efficient solution for reward-aware
distillation in resource-constrained settings.