ChatPaper.aiChatPaper

Clover: Regressief Lichtgewicht Speculatief Decoderen met Sequentieel Kennis

Clover: Regressive Lightweight Speculative Decoding with Sequential Knowledge

May 1, 2024
Auteurs: Bin Xiao, Chunan Shi, Xiaonan Nie, Fan Yang, Xiangwei Deng, Lei Su, Weipeng Chen, Bin Cui
cs.AI

Samenvatting

Grote taalmodellen (LLMs) kampen met een lage efficiëntie vanwege de mismatch tussen de vereisten van auto-regressieve decodering en het ontwerp van de meeste hedendaagse GPU's. Specifiek moeten miljarden tot biljoenen parameters via de beperkte geheugenbandbreedte naar de GPU-cache worden geladen voor berekeningen, terwijl slechts een kleine batch tokens daadwerkelijk wordt verwerkt. Als gevolg besteedt de GPU het grootste deel van de tijd aan geheugenoverdracht in plaats van aan berekeningen. Recentelijk wordt parallelle decodering, een type speculatieve decodering-algoritme, steeds populairder en heeft het indrukwekkende efficiëntieverbeteringen laten zien bij het genereren. Het introduceert extra decoderingkoppen in grote modellen, waardoor ze meerdere opeenvolgende tokens gelijktijdig kunnen voorspellen en deze kandidaat-voortzettingen in één decoderingstap kunnen verifiëren. Deze benadering wijkt echter af van het trainingsdoel van volgende-token-voorspelling dat tijdens de pre-training wordt gebruikt, wat resulteert in een lage trefkans voor kandidaat-tokens. In dit paper stellen we een nieuw speculatief decodering-algoritme voor, Clover, dat sequentiële kennis integreert in het parallelle decoderingproces. Deze verbetering verhoogt de trefkans van speculatoren en verhoogt daarmee de algehele efficiëntie. Clover geeft de sequentiële kennis van vooraf gespeculeerde tokens door via de Regressieve Verbinding en gebruikt vervolgens een Attention Decoder om deze gespeculeerde tokens te integreren. Daarnaast bevat Clover een Augmenting Block dat de verborgen toestanden aanpast om beter aan te sluiten bij het doel van speculatieve generatie in plaats van volgende-token-voorspelling. De experimentele resultaten tonen aan dat Clover de baseline met respectievelijk tot 91% op Baichuan-Small en 146% op Baichuan-Large overtreft, en de prestaties van de voorheen best presterende methode, Medusa, met respectievelijk tot 37% op Baichuan-Small en 57% op Baichuan-Large overstijgt.
English
Large language models (LLMs) suffer from low efficiency as the mismatch between the requirement of auto-regressive decoding and the design of most contemporary GPUs. Specifically, billions to trillions of parameters must be loaded to the GPU cache through its limited memory bandwidth for computation, but only a small batch of tokens is actually computed. Consequently, the GPU spends most of its time on memory transfer instead of computation. Recently, parallel decoding, a type of speculative decoding algorithms, is becoming more popular and has demonstrated impressive efficiency improvement in generation. It introduces extra decoding heads to large models, enabling them to predict multiple subsequent tokens simultaneously and verify these candidate continuations in a single decoding step. However, this approach deviates from the training objective of next token prediction used during pre-training, resulting in a low hit rate for candidate tokens. In this paper, we propose a new speculative decoding algorithm, Clover, which integrates sequential knowledge into the parallel decoding process. This enhancement improves the hit rate of speculators and thus boosts the overall efficiency. Clover transmits the sequential knowledge from pre-speculated tokens via the Regressive Connection, then employs an Attention Decoder to integrate these speculated tokens. Additionally, Clover incorporates an Augmenting Block that modifies the hidden states to better align with the purpose of speculative generation rather than next token prediction. The experiment results demonstrate that Clover outperforms the baseline by up to 91% on Baichuan-Small and 146% on Baichuan-Large, respectively, and exceeds the performance of the previously top-performing method, Medusa, by up to 37% on Baichuan-Small and 57% on Baichuan-Large, respectively.
PDF161February 8, 2026