CLaSp: Salto di Livello in Contesto per la Decodifica Auto-Speculativa
CLaSp: In-Context Layer Skip for Self-Speculative Decoding
May 30, 2025
Autori: Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
cs.AI
Abstract
La decodifica speculativa (SD) è un metodo promettente per accelerare il processo di decodifica dei Modelli Linguistici di Grande Dimensione (LLMs). L'efficienza della SD dipende principalmente dalla coerenza tra il modello di bozza e il modello di verifica. Tuttavia, gli approcci esistenti per la generazione di bozze richiedono tipicamente l'addestramento di moduli aggiuntivi, il che può essere difficile da implementare e garantire la compatibilità tra vari LLMs. In questo articolo, proponiamo CLaSp, una strategia di salto di strati in-context per la decodifica speculativa autonoma. A differenza dei metodi precedenti, CLaSp non richiede moduli aggiuntivi per la generazione di bozze né un addestramento supplementare. Invece, utilizza un meccanismo plug-and-play saltando gli strati intermedi del modello di verifica per costruire un modello di bozza compresso. Nello specifico, sviluppiamo un algoritmo di programmazione dinamica che ottimizza il processo di salto degli strati sfruttando gli stati nascosti completi dell'ultima fase di verifica come obiettivo. Ciò consente a CLaSp di adattare dinamicamente la sua strategia di salto degli strati dopo ogni fase di verifica, senza fare affidamento su insiemi pre-ottimizzati di strati saltati. I risultati sperimentali su vari task downstream dimostrano che CLaSp raggiunge un'accelerazione di 1.3x ~ 1.7x sui modelli della serie LLaMA3 senza alterare la distribuzione originale del testo generato.
English
Speculative decoding (SD) is a promising method for accelerating the decoding
process of Large Language Models (LLMs). The efficiency of SD primarily hinges
on the consistency between the draft model and the verify model. However,
existing drafting approaches typically require additional modules to be
trained, which can be challenging to implement and ensure compatibility across
various LLMs. In this paper, we propose CLaSp, an in-context layer-skipping
strategy for self-speculative decoding. Unlike prior methods, CLaSp does not
require additional drafting modules or extra training. Instead, it employs a
plug-and-play mechanism by skipping intermediate layers of the verify model to
construct a compressed draft model. Specifically, we develop a dynamic
programming algorithm that optimizes the layer-skipping process by leveraging
the complete hidden states from the last verification stage as an objective.
This enables CLaSp to dynamically adjust its layer-skipping strategy after each
verification stage, without relying on pre-optimized sets of skipped layers.
Experimental results across diverse downstream tasks demonstrate that CLaSp
achieves a speedup of 1.3x ~ 1.7x on LLaMA3 series models without altering the
original distribution of the generated text.