CLaSp: Пропуск слоев в контексте для самоспецифического декодирования
CLaSp: In-Context Layer Skip for Self-Speculative Decoding
May 30, 2025
Авторы: Longze Chen, Renke Shan, Huiming Wang, Lu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang
cs.AI
Аннотация
Спекулятивное декодирование (SD) представляет собой перспективный метод ускорения процесса декодирования больших языковых моделей (LLM). Эффективность SD в первую очередь зависит от согласованности между черновой моделью и проверяющей моделью. Однако существующие подходы к созданию черновых моделей обычно требуют обучения дополнительных модулей, что может быть сложно реализовать и обеспечить их совместимость с различными LLM. В данной статье мы предлагаем CLaSp — стратегию пропуска слоев в контексте для самоспекулятивного декодирования. В отличие от предыдущих методов, CLaSp не требует дополнительных модулей для создания черновых моделей или дополнительного обучения. Вместо этого она использует механизм "подключи и работай", пропуская промежуточные слои проверяющей модели для создания сжатой черновой модели. В частности, мы разработали алгоритм динамического программирования, который оптимизирует процесс пропуска слоев, используя полные скрытые состояния из последнего этапа проверки в качестве цели. Это позволяет CLaSp динамически корректировать стратегию пропуска слоев после каждого этапа проверки, не полагаясь на предварительно оптимизированные наборы пропущенных слоев. Результаты экспериментов на различных задачах демонстрируют, что CLaSp обеспечивает ускорение в 1,3–1,7 раза на моделях серии LLaMA3 без изменения исходного распределения генерируемого текста.
English
Speculative decoding (SD) is a promising method for accelerating the decoding
process of Large Language Models (LLMs). The efficiency of SD primarily hinges
on the consistency between the draft model and the verify model. However,
existing drafting approaches typically require additional modules to be
trained, which can be challenging to implement and ensure compatibility across
various LLMs. In this paper, we propose CLaSp, an in-context layer-skipping
strategy for self-speculative decoding. Unlike prior methods, CLaSp does not
require additional drafting modules or extra training. Instead, it employs a
plug-and-play mechanism by skipping intermediate layers of the verify model to
construct a compressed draft model. Specifically, we develop a dynamic
programming algorithm that optimizes the layer-skipping process by leveraging
the complete hidden states from the last verification stage as an objective.
This enables CLaSp to dynamically adjust its layer-skipping strategy after each
verification stage, without relying on pre-optimized sets of skipped layers.
Experimental results across diverse downstream tasks demonstrate that CLaSp
achieves a speedup of 1.3x ~ 1.7x on LLaMA3 series models without altering the
original distribution of the generated text.