CLaSp: In-Context Laagoverslaan voor Zelf-Speculatieve Decodering
CLaSp: In-Context Layer Skip for Self-Speculative Decoding
May 30, 2025
Auteurs: Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
cs.AI
Samenvatting
Speculatieve decodering (SD) is een veelbelovende methode om het decodeerproces van Large Language Models (LLM's) te versnellen. De efficiëntie van SD hangt voornamelijk af van de consistentie tussen het conceptmodel en het verificatiemodel. Bestaande conceptbenaderingen vereisen echter doorgaans dat aanvullende modules worden getraind, wat uitdagend kan zijn om te implementeren en compatibiliteit over verschillende LLM's te garanderen. In dit artikel stellen we CLaSp voor, een in-context layer-skipping strategie voor zelf-speculatieve decodering. In tegenstelling tot eerdere methoden vereist CLaSp geen aanvullende conceptmodules of extra training. In plaats daarvan maakt het gebruik van een plug-and-play mechanisme door tussenliggende lagen van het verificatiemodel over te slaan om een gecomprimeerd conceptmodel te construeren. Specifiek ontwikkelen we een dynamisch programmeeralgoritme dat het layer-skipping proces optimaliseert door gebruik te maken van de volledige verborgen toestanden uit de laatste verificatiefase als doelstelling. Hierdoor kan CLaSp zijn layer-skipping strategie dynamisch aanpassen na elke verificatiefase, zonder te vertrouwen op vooraf geoptimaliseerde sets van overgeslagen lagen. Experimentele resultaten over diverse downstream taken tonen aan dat CLaSp een versnelling van 1,3x tot 1,7x bereikt op LLaMA3-serie modellen zonder de oorspronkelijke verdeling van de gegenereerde tekst te wijzigen.
English
Speculative decoding (SD) is a promising method for accelerating the decoding
process of Large Language Models (LLMs). The efficiency of SD primarily hinges
on the consistency between the draft model and the verify model. However,
existing drafting approaches typically require additional modules to be
trained, which can be challenging to implement and ensure compatibility across
various LLMs. In this paper, we propose CLaSp, an in-context layer-skipping
strategy for self-speculative decoding. Unlike prior methods, CLaSp does not
require additional drafting modules or extra training. Instead, it employs a
plug-and-play mechanism by skipping intermediate layers of the verify model to
construct a compressed draft model. Specifically, we develop a dynamic
programming algorithm that optimizes the layer-skipping process by leveraging
the complete hidden states from the last verification stage as an objective.
This enables CLaSp to dynamically adjust its layer-skipping strategy after each
verification stage, without relying on pre-optimized sets of skipped layers.
Experimental results across diverse downstream tasks demonstrate that CLaSp
achieves a speedup of 1.3x ~ 1.7x on LLaMA3 series models without altering the
original distribution of the generated text.