CLaSp: Omisión de Capas en Contexto para Decodificación Auto-Especulativa
CLaSp: In-Context Layer Skip for Self-Speculative Decoding
May 30, 2025
Autores: Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
cs.AI
Resumen
La decodificación especulativa (SD, por sus siglas en inglés) es un método prometedor para acelerar el proceso de decodificación de los Modelos de Lenguaje de Gran Escala (LLMs). La eficiencia de SD depende principalmente de la consistencia entre el modelo de borrador y el modelo de verificación. Sin embargo, los enfoques de borrador existentes generalmente requieren módulos adicionales que deben ser entrenados, lo que puede ser difícil de implementar y garantizar su compatibilidad en diversos LLMs. En este artículo, proponemos CLaSp, una estrategia de omisión de capas en contexto para la decodificación especulativa autónoma. A diferencia de métodos anteriores, CLaSp no requiere módulos de borrador adicionales ni entrenamiento extra. En su lugar, emplea un mecanismo plug-and-play al omitir capas intermedias del modelo de verificación para construir un modelo de borrador comprimido. Específicamente, desarrollamos un algoritmo de programación dinámica que optimiza el proceso de omisión de capas aprovechando los estados ocultos completos de la última etapa de verificación como objetivo. Esto permite que CLaSp ajuste dinámicamente su estrategia de omisión de capas después de cada etapa de verificación, sin depender de conjuntos preoptimizados de capas omitidas. Los resultados experimentales en diversas tareas posteriores demuestran que CLaSp logra una aceleración de 1.3x ~ 1.7x en los modelos de la serie LLaMA3 sin alterar la distribución original del texto generado.
English
Speculative decoding (SD) is a promising method for accelerating the decoding
process of Large Language Models (LLMs). The efficiency of SD primarily hinges
on the consistency between the draft model and the verify model. However,
existing drafting approaches typically require additional modules to be
trained, which can be challenging to implement and ensure compatibility across
various LLMs. In this paper, we propose CLaSp, an in-context layer-skipping
strategy for self-speculative decoding. Unlike prior methods, CLaSp does not
require additional drafting modules or extra training. Instead, it employs a
plug-and-play mechanism by skipping intermediate layers of the verify model to
construct a compressed draft model. Specifically, we develop a dynamic
programming algorithm that optimizes the layer-skipping process by leveraging
the complete hidden states from the last verification stage as an objective.
This enables CLaSp to dynamically adjust its layer-skipping strategy after each
verification stage, without relying on pre-optimized sets of skipped layers.
Experimental results across diverse downstream tasks demonstrate that CLaSp
achieves a speedup of 1.3x ~ 1.7x on LLaMA3 series models without altering the
original distribution of the generated text.