ChatPaper.aiChatPaper

CLaSp: Salto de Camada em Contexto para Decodificação Autoespeculativa

CLaSp: In-Context Layer Skip for Self-Speculative Decoding

May 30, 2025
Autores: Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
cs.AI

Resumo

A decodificação especulativa (SD) é um método promissor para acelerar o processo de decodificação de Modelos de Linguagem de Grande Escala (LLMs). A eficiência da SD depende principalmente da consistência entre o modelo de rascunho e o modelo de verificação. No entanto, as abordagens de rascunho existentes geralmente exigem módulos adicionais a serem treinados, o que pode ser desafiador de implementar e garantir compatibilidade entre diversos LLMs. Neste artigo, propomos o CLaSp, uma estratégia de salto de camadas em contexto para decodificação especulativa automática. Diferente de métodos anteriores, o CLaSp não requer módulos de rascunho adicionais ou treinamento extra. Em vez disso, ele emprega um mecanismo plug-and-play ao pular camadas intermediárias do modelo de verificação para construir um modelo de rascunho comprimido. Especificamente, desenvolvemos um algoritmo de programação dinâmica que otimiza o processo de salto de camadas ao aproveitar os estados ocultos completos da última etapa de verificação como objetivo. Isso permite que o CLaSp ajuste dinamicamente sua estratégia de salto de camadas após cada etapa de verificação, sem depender de conjuntos pré-otimizados de camadas puladas. Resultados experimentais em diversas tarefas downstream demonstram que o CLaSp alcança uma aceleração de 1,3x ~ 1,7x em modelos da série LLaMA3 sem alterar a distribuição original do texto gerado.
English
Speculative decoding (SD) is a promising method for accelerating the decoding process of Large Language Models (LLMs). The efficiency of SD primarily hinges on the consistency between the draft model and the verify model. However, existing drafting approaches typically require additional modules to be trained, which can be challenging to implement and ensure compatibility across various LLMs. In this paper, we propose CLaSp, an in-context layer-skipping strategy for self-speculative decoding. Unlike prior methods, CLaSp does not require additional drafting modules or extra training. Instead, it employs a plug-and-play mechanism by skipping intermediate layers of the verify model to construct a compressed draft model. Specifically, we develop a dynamic programming algorithm that optimizes the layer-skipping process by leveraging the complete hidden states from the last verification stage as an objective. This enables CLaSp to dynamically adjust its layer-skipping strategy after each verification stage, without relying on pre-optimized sets of skipped layers. Experimental results across diverse downstream tasks demonstrate that CLaSp achieves a speedup of 1.3x ~ 1.7x on LLaMA3 series models without altering the original distribution of the generated text.
PDF126June 2, 2025