ChatPaper.aiChatPaper

Ripensare la distillazione dei grandi modelli linguistici: una prospettiva basata sui processi decisionali di Markov vincolati

Rethinking Large Language Model Distillation: A Constrained Markov Decision Process Perspective

September 26, 2025
Autori: Matthieu Zimmer, Xiaotong Ji, Tu Nguyen, Haitham Bou Ammar
cs.AI

Abstract

Introduciamo un nuovo approccio alla distillazione di modelli linguistici di grandi dimensioni (LLM) formulandolo come un problema di apprendimento per rinforzo vincolato. Mentre lavori recenti hanno iniziato a esplorare l'integrazione di ricompense specifiche per il compito nei processi di distillazione, i metodi esistenti si basano tipicamente su ponderazioni ad hoc delle ricompense. Proponiamo un framework di ottimizzazione basato su principi che massimizza le ricompense specifiche per il compito, vincolando la divergenza dal modello insegnante a rimanere al di sotto di una soglia specificata. Il nostro approccio adatta l'apprendimento per rinforzo vincolato con aumento dello stato al contesto della distillazione, introducendo una funzione di ricompensa modificata che mantiene garanzie teoriche di soddisfazione dei vincoli senza richiedere l'aumento dello stato o l'accesso al modello insegnante durante il deployment, e senza il sovraccarico computazionale dei metodi Lagrangiani duali. Attraverso esperimenti estesi su compiti di ragionamento matematico, dimostriamo che il nostro metodo raggiunge tassi di soddisfazione dei vincoli e capacità di ragionamento migliori rispetto ai baseline con rilassamento Lagrangiano soft, mantenendo al contempo prestazioni competitive nel compito. Il nostro framework fornisce una soluzione teoricamente fondata e praticamente efficiente per la distillazione consapevole delle ricompense in contesti con risorse limitate.
English
We introduce a novel approach to large language model (LLM) distillation by formulating it as a constrained reinforcement learning problem. While recent work has begun exploring the integration of task-specific rewards into distillation processes, existing methods typically rely on ad-hoc reward weighting. We propose a principled optimization framework that maximizes task-specific rewards while constraining the divergence from the teacher model to remain below a specified threshold. Our approach adapts constrained state augmented reinforcement learning to the distillation setting, introducing a modified reward function that maintains theoretical guarantees of constraint satisfaction without requiring state augmentation or teacher model access during deployment and without the computational overhead of the dual Lagrangian methods. Through extensive experiments on mathematical reasoning tasks, we demonstrate that our method achieves better constraint satisfaction rates and better reasoning compared to the soft Lagrangian relaxation baselines while maintaining competitive task performance. Our framework provides a theoretically grounded and practically efficient solution for reward-aware distillation in resource-constrained settings.
PDF112September 30, 2025