Neubewertung der Destillation großer Sprachmodelle: Eine Perspektive des eingeschränkten Markov-Entscheidungsprozesses
Rethinking Large Language Model Distillation: A Constrained Markov Decision Process Perspective
September 26, 2025
papers.authors: Matthieu Zimmer, Xiaotong Ji, Tu Nguyen, Haitham Bou Ammar
cs.AI
papers.abstract
Wir stellen einen neuartigen Ansatz zur Destillation großer Sprachmodelle (LLM) vor, indem wir diesen als ein Problem des eingeschränkten Reinforcement Learning formulieren. Während aktuelle Arbeiten begonnen haben, die Integration aufgaben-spezifischer Belohnungen in Destillationsprozesse zu untersuchen, basieren bestehende Methoden typischerweise auf ad-hoc Gewichtungen der Belohnungen. Wir schlagen ein prinzipielles Optimierungsframework vor, das aufgaben-spezifische Belohnungen maximiert, während die Abweichung vom Lehrer-Modell unter einen festgelegten Schwellenwert beschränkt wird. Unser Ansatz adaptiert das eingeschränkte, zustands-erweiterte Reinforcement Learning für die Destillationsumgebung und führt eine modifizierte Belohnungsfunktion ein, die theoretische Garantien für die Einhaltung der Beschränkungen bietet, ohne eine Zustandserweiterung oder Zugriff auf das Lehrer-Modell während des Einsatzes zu erfordern und ohne den rechnerischen Aufwand dualer Lagrange-Methoden. Durch umfangreiche Experimente zu mathematischen Denkaufgaben zeigen wir, dass unsere Methode im Vergleich zu den Baselines der weichen Lagrange-Relaxation bessere Raten der Beschränkungserfüllung und besseres logisches Denken erreicht, während sie eine wettbewerbsfähige Aufgabenleistung beibehält. Unser Framework bietet eine theoretisch fundierte und praktisch effiziente Lösung für belohnungsbewusste Destillation in ressourcenbeschränkten Umgebungen.
English
We introduce a novel approach to large language model (LLM) distillation by
formulating it as a constrained reinforcement learning problem. While recent
work has begun exploring the integration of task-specific rewards into
distillation processes, existing methods typically rely on ad-hoc reward
weighting. We propose a principled optimization framework that maximizes
task-specific rewards while constraining the divergence from the teacher model
to remain below a specified threshold. Our approach adapts constrained state
augmented reinforcement learning to the distillation setting, introducing a
modified reward function that maintains theoretical guarantees of constraint
satisfaction without requiring state augmentation or teacher model access
during deployment and without the computational overhead of the dual Lagrangian
methods. Through extensive experiments on mathematical reasoning tasks, we
demonstrate that our method achieves better constraint satisfaction rates and
better reasoning compared to the soft Lagrangian relaxation baselines while
maintaining competitive task performance. Our framework provides a
theoretically grounded and practically efficient solution for reward-aware
distillation in resource-constrained settings.