CLaSp: Kontextbasierter Layer-Skip für selbstspekulatives Decodieren
CLaSp: In-Context Layer Skip for Self-Speculative Decoding
May 30, 2025
Autoren: Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
cs.AI
Zusammenfassung
Spekulatives Decodieren (SD) ist eine vielversprechende Methode zur Beschleunigung des Decodierungsprozesses von Large Language Models (LLMs). Die Effizienz von SD hängt hauptsächlich von der Konsistenz zwischen dem Entwurfsmodell und dem Verifizierungsmodell ab. Bisherige Ansätze für das Entwerfen erfordern jedoch typischerweise zusätzliche Module, die trainiert werden müssen, was die Implementierung erschwert und die Kompatibilität über verschiedene LLMs hinweg sicherzustellen schwierig macht. In diesem Artikel schlagen wir CLaSp vor, eine In-Context-Layer-Skipping-Strategie für selbstspekulatives Decodieren. Im Gegensatz zu früheren Methoden benötigt CLaSp keine zusätzlichen Entwurfsmodule oder zusätzliches Training. Stattdessen verwendet es einen Plug-and-Play-Mechanismus, indem es Zwischenschichten des Verifizierungsmodells überspringt, um ein komprimiertes Entwurfsmodell zu konstruieren. Insbesondere entwickeln wir einen dynamischen Programmieralgorithmus, der den Layer-Skipping-Prozess optimiert, indem er die vollständigen verborgenen Zustände aus der letzten Verifizierungsphase als Ziel nutzt. Dies ermöglicht es CLaSp, seine Layer-Skipping-Strategie nach jeder Verifizierungsphase dynamisch anzupassen, ohne auf vordefinierte Sätze von übersprungenen Layern angewiesen zu sein. Experimentelle Ergebnisse über verschiedene Downstream-Aufgaben hinweg zeigen, dass CLaSp eine Beschleunigung von 1,3x bis 1,7x auf LLaMA3-Serienmodellen erreicht, ohne die ursprüngliche Verteilung des generierten Textes zu verändern.
English
Speculative decoding (SD) is a promising method for accelerating the decoding
process of Large Language Models (LLMs). The efficiency of SD primarily hinges
on the consistency between the draft model and the verify model. However,
existing drafting approaches typically require additional modules to be
trained, which can be challenging to implement and ensure compatibility across
various LLMs. In this paper, we propose CLaSp, an in-context layer-skipping
strategy for self-speculative decoding. Unlike prior methods, CLaSp does not
require additional drafting modules or extra training. Instead, it employs a
plug-and-play mechanism by skipping intermediate layers of the verify model to
construct a compressed draft model. Specifically, we develop a dynamic
programming algorithm that optimizes the layer-skipping process by leveraging
the complete hidden states from the last verification stage as an objective.
This enables CLaSp to dynamically adjust its layer-skipping strategy after each
verification stage, without relying on pre-optimized sets of skipped layers.
Experimental results across diverse downstream tasks demonstrate that CLaSp
achieves a speedup of 1.3x ~ 1.7x on LLaMA3 series models without altering the
original distribution of the generated text.