SepLLM: Versnel Grote Taalmodellen door Eén Segment te Comprimeren tot Eén Scheider
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
December 16, 2024
Auteurs: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben uitzonderlijke prestaties vertoond over een breed scala van taken in natuurlijke taalverwerking. Echter, hun aanzienlijke omvang brengt aanzienlijke uitdagingen met zich mee, met name op het gebied van rekenkundige eisen en inferentiesnelheid, vanwege hun kwadratische complexiteit. In dit werk hebben we een belangrijk patroon geïdentificeerd: bepaalde ogenschijnlijk betekenisloze speciale tokens (d.w.z. scheiders) dragen onevenredig bij aan aandachtscores in vergelijking met semantisch betekenisvolle tokens. Deze observatie suggereert dat informatie van de segmenten tussen deze scheider tokens effectief gecondenseerd kan worden in de scheider tokens zelf zonder significante informatieverlies. Geleid door dit inzicht introduceren we SepLLM, een plug-and-play raamwerk dat inferentie versnelt door deze segmenten te comprimeren en overbodige tokens te elimineren. Daarnaast implementeren we efficiënte kernels voor versnelling van training. Experimentele resultaten over training-vrij, training-vanaf-nul, en post-training instellingen tonen de effectiviteit van SepLLM aan. Opmerkelijk is dat met behulp van de Llama-3-8B ruggengraat, SepLLM meer dan 50% reductie in KV-cache behaalt op de GSM8K-CoT benchmark terwijl vergelijkbare prestaties behouden blijven. Bovendien verwerkt SepLLM effectief sequenties van tot wel 4 miljoen tokens of meer in streaming instellingen, terwijl consistente taalmodelleermogelijkheden behouden blijven.
English
Large Language Models (LLMs) have exhibited exceptional performance across a
spectrum of natural language processing tasks. However, their substantial sizes
pose considerable challenges, particularly in computational demands and
inference speed, due to their quadratic complexity. In this work, we have
identified a key pattern: certain seemingly meaningless special tokens (i.e.,
separators) contribute disproportionately to attention scores compared to
semantically meaningful tokens. This observation suggests that information of
the segments between these separator tokens can be effectively condensed into
the separator tokens themselves without significant information loss. Guided by
this insight, we introduce SepLLM, a plug-and-play framework that accelerates
inference by compressing these segments and eliminating redundant tokens.
Additionally, we implement efficient kernels for training acceleration.
Experimental results across training-free, training-from-scratch, and
post-training settings demonstrate SepLLM's effectiveness. Notably, using the
Llama-3-8B backbone, SepLLM achieves over 50% reduction in KV cache on the
GSM8K-CoT benchmark while maintaining comparable performance. Furthermore, in
streaming settings, SepLLM effectively processes sequences of up to 4 million
tokens or more while maintaining consistent language modeling capabilities.