SepLLM: Beschleunigung großer Sprachmodelle durch Komprimierung eines Segments in einen Trenner
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
December 16, 2024
Autoren: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben eine herausragende Leistung in einer Vielzahl von natürlichsprachlichen Verarbeitungsaufgaben gezeigt. Ihre beträchtlichen Größen stellen jedoch erhebliche Herausforderungen dar, insbesondere in Bezug auf den Rechenaufwand und die Inferenzgeschwindigkeit aufgrund ihrer quadratischen Komplexität. In dieser Arbeit haben wir ein Schlüsselmuster identifiziert: Bestimmte scheinbar bedeutungslose spezielle Token (d.h. Separator) tragen im Vergleich zu semantisch bedeutsamen Tokens unverhältnismäßig stark zu Aufmerksamkeitswerten bei. Diese Beobachtung legt nahe, dass Informationen über die Segmente zwischen diesen Separator-Tokens effektiv in den Separator-Tokens selbst kondensiert werden können, ohne signifikanten Informationsverlust. Basierend auf dieser Erkenntnis stellen wir SepLLM vor, ein Plug-and-Play-Framework, das die Inferenz beschleunigt, indem es diese Segmente komprimiert und überflüssige Tokens eliminiert. Darüber hinaus implementieren wir effiziente Kerne für die Beschleunigung des Trainings. Experimentelle Ergebnisse in trainingsfreien, Trainieren-von-Grund-auf- und Post-Training-Einstellungen zeigen die Wirksamkeit von SepLLM. Bemerkenswert ist, dass SepLLM unter Verwendung des Llama-3-8B-Backbones auf dem GSM8K-CoT-Benchmark eine über 50%ige Reduzierung des KV-Caches erreicht, während die Leistung vergleichbar bleibt. Darüber hinaus verarbeitet SepLLM in Streaming-Einstellungen effektiv Sequenzen von bis zu 4 Millionen Tokens oder mehr, während es konsistente Sprachmodellierungsfähigkeiten beibehält.
English
Large Language Models (LLMs) have exhibited exceptional performance across a
spectrum of natural language processing tasks. However, their substantial sizes
pose considerable challenges, particularly in computational demands and
inference speed, due to their quadratic complexity. In this work, we have
identified a key pattern: certain seemingly meaningless special tokens (i.e.,
separators) contribute disproportionately to attention scores compared to
semantically meaningful tokens. This observation suggests that information of
the segments between these separator tokens can be effectively condensed into
the separator tokens themselves without significant information loss. Guided by
this insight, we introduce SepLLM, a plug-and-play framework that accelerates
inference by compressing these segments and eliminating redundant tokens.
Additionally, we implement efficient kernels for training acceleration.
Experimental results across training-free, training-from-scratch, and
post-training settings demonstrate SepLLM's effectiveness. Notably, using the
Llama-3-8B backbone, SepLLM achieves over 50% reduction in KV cache on the
GSM8K-CoT benchmark while maintaining comparable performance. Furthermore, in
streaming settings, SepLLM effectively processes sequences of up to 4 million
tokens or more while maintaining consistent language modeling capabilities.Summary
AI-Generated Summary