CLaSp : Saut de couche contextuel pour le décodage auto-spéculatif
CLaSp: In-Context Layer Skip for Self-Speculative Decoding
May 30, 2025
Auteurs: Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
cs.AI
Résumé
Le décodage spéculatif (SD) est une méthode prometteuse pour accélérer le processus de décodage des grands modèles de langage (LLMs). L'efficacité du SD dépend principalement de la cohérence entre le modèle de brouillon et le modèle de vérification. Cependant, les approches existantes de génération de brouillons nécessitent généralement l'entraînement de modules supplémentaires, ce qui peut être difficile à mettre en œuvre et à assurer la compatibilité avec divers LLMs. Dans cet article, nous proposons CLaSp, une stratégie de saut de couches en contexte pour le décodage spéculatif autonome. Contrairement aux méthodes précédentes, CLaSp ne nécessite pas de modules de brouillon supplémentaires ni d'entraînement additionnel. Au lieu de cela, il utilise un mécanisme plug-and-play en sautant des couches intermédiaires du modèle de vérification pour construire un modèle de brouillon compressé. Plus précisément, nous développons un algorithme de programmation dynamique qui optimise le processus de saut de couches en exploitant les états cachés complets de la dernière étape de vérification comme objectif. Cela permet à CLaSp d'ajuster dynamiquement sa stratégie de saut de couches après chaque étape de vérification, sans dépendre de jeux de couches sautées pré-optimisés. Les résultats expérimentaux sur diverses tâches en aval démontrent que CLaSp permet une accélération de 1,3x à 1,7x sur les modèles de la série LLaMA3 sans altérer la distribution originale du texte généré.
English
Speculative decoding (SD) is a promising method for accelerating the decoding
process of Large Language Models (LLMs). The efficiency of SD primarily hinges
on the consistency between the draft model and the verify model. However,
existing drafting approaches typically require additional modules to be
trained, which can be challenging to implement and ensure compatibility across
various LLMs. In this paper, we propose CLaSp, an in-context layer-skipping
strategy for self-speculative decoding. Unlike prior methods, CLaSp does not
require additional drafting modules or extra training. Instead, it employs a
plug-and-play mechanism by skipping intermediate layers of the verify model to
construct a compressed draft model. Specifically, we develop a dynamic
programming algorithm that optimizes the layer-skipping process by leveraging
the complete hidden states from the last verification stage as an objective.
This enables CLaSp to dynamically adjust its layer-skipping strategy after each
verification stage, without relying on pre-optimized sets of skipped layers.
Experimental results across diverse downstream tasks demonstrate that CLaSp
achieves a speedup of 1.3x ~ 1.7x on LLaMA3 series models without altering the
original distribution of the generated text.