Repenser la distillation des grands modèles de langage : une perspective de processus de décision markovien contraint

papers.abstract

Nous introduisons une nouvelle approche pour la distillation de modèles de langage de grande taille (LLM) en la formulant comme un problème d'apprentissage par renforcement contraint. Bien que des travaux récents aient commencé à explorer l'intégration de récompenses spécifiques aux tâches dans les processus de distillation, les méthodes existantes reposent généralement sur une pondération ad hoc des récompenses. Nous proposons un cadre d'optimisation fondé sur des principes qui maximise les récompenses spécifiques aux tâches tout en contraignant la divergence par rapport au modèle enseignant à rester en dessous d'un seuil spécifié. Notre approche adapte l'apprentissage par renforcement contraint avec augmentation d'état au contexte de la distillation, en introduisant une fonction de récompense modifiée qui maintient des garanties théoriques de satisfaction des contraintes sans nécessiter d'augmentation d'état ni d'accès au modèle enseignant pendant le déploiement, et sans la surcharge computationnelle des méthodes duales de Lagrange. À travers des expériences approfondies sur des tâches de raisonnement mathématique, nous démontrons que notre méthode atteint de meilleurs taux de satisfaction des contraintes et un meilleur raisonnement par rapport aux bases de référence de relaxation douce de Lagrange, tout en maintenant une performance compétitive sur les tâches. Notre cadre offre une solution théoriquement fondée et pratiquement efficace pour la distillation consciente des récompenses dans des contextes à ressources limitées.

English

We introduce a novel approach to large language model (LLM) distillation by formulating it as a constrained reinforcement learning problem. While recent work has begun exploring the integration of task-specific rewards into distillation processes, existing methods typically rely on ad-hoc reward weighting. We propose a principled optimization framework that maximizes task-specific rewards while constraining the divergence from the teacher model to remain below a specified threshold. Our approach adapts constrained state augmented reinforcement learning to the distillation setting, introducing a modified reward function that maintains theoretical guarantees of constraint satisfaction without requiring state augmentation or teacher model access during deployment and without the computational overhead of the dual Lagrangian methods. Through extensive experiments on mathematical reasoning tasks, we demonstrate that our method achieves better constraint satisfaction rates and better reasoning compared to the soft Lagrangian relaxation baselines while maintaining competitive task performance. Our framework provides a theoretically grounded and practically efficient solution for reward-aware distillation in resource-constrained settings.

Repenser la distillation des grands modèles de langage : une perspective de processus de décision markovien contraint

Rethinking Large Language Model Distillation: A Constrained Markov Decision Process Perspective

papers.abstract

Support