SepLLM: Versnel Grote Taalmodellen door Eén Segment te Comprimeren tot Eén Scheider

Samenvatting

Grote Taalmodellen (LLM's) hebben uitzonderlijke prestaties vertoond over een breed scala van taken in natuurlijke taalverwerking. Echter, hun aanzienlijke omvang brengt aanzienlijke uitdagingen met zich mee, met name op het gebied van rekenkundige eisen en inferentiesnelheid, vanwege hun kwadratische complexiteit. In dit werk hebben we een belangrijk patroon geïdentificeerd: bepaalde ogenschijnlijk betekenisloze speciale tokens (d.w.z. scheiders) dragen onevenredig bij aan aandachtscores in vergelijking met semantisch betekenisvolle tokens. Deze observatie suggereert dat informatie van de segmenten tussen deze scheider tokens effectief gecondenseerd kan worden in de scheider tokens zelf zonder significante informatieverlies. Geleid door dit inzicht introduceren we SepLLM, een plug-and-play raamwerk dat inferentie versnelt door deze segmenten te comprimeren en overbodige tokens te elimineren. Daarnaast implementeren we efficiënte kernels voor versnelling van training. Experimentele resultaten over training-vrij, training-vanaf-nul, en post-training instellingen tonen de effectiviteit van SepLLM aan. Opmerkelijk is dat met behulp van de Llama-3-8B ruggengraat, SepLLM meer dan 50% reductie in KV-cache behaalt op de GSM8K-CoT benchmark terwijl vergelijkbare prestaties behouden blijven. Bovendien verwerkt SepLLM effectief sequenties van tot wel 4 miljoen tokens of meer in streaming instellingen, terwijl consistente taalmodelleermogelijkheden behouden blijven.

English

Large Language Models (LLMs) have exhibited exceptional performance across a spectrum of natural language processing tasks. However, their substantial sizes pose considerable challenges, particularly in computational demands and inference speed, due to their quadratic complexity. In this work, we have identified a key pattern: certain seemingly meaningless special tokens (i.e., separators) contribute disproportionately to attention scores compared to semantically meaningful tokens. This observation suggests that information of the segments between these separator tokens can be effectively condensed into the separator tokens themselves without significant information loss. Guided by this insight, we introduce SepLLM, a plug-and-play framework that accelerates inference by compressing these segments and eliminating redundant tokens. Additionally, we implement efficient kernels for training acceleration. Experimental results across training-free, training-from-scratch, and post-training settings demonstrate SepLLM's effectiveness. Notably, using the Llama-3-8B backbone, SepLLM achieves over 50% reduction in KV cache on the GSM8K-CoT benchmark while maintaining comparable performance. Furthermore, in streaming settings, SepLLM effectively processes sequences of up to 4 million tokens or more while maintaining consistent language modeling capabilities.

SepLLM: Versnel Grote Taalmodellen door Eén Segment te Comprimeren tot Eén Scheider

SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Samenvatting

Support