Von Stunden zu Minuten: Verlustfreie Beschleunigung der Erzeugung ultra langer Sequenzen bis zu 100.000 Tokens
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens
February 26, 2025
Autoren: Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng
cs.AI
Zusammenfassung
Die Erzeugung ultra-langer Sequenzen mit großen Sprachmodellen (LLMs) wird zunehmend entscheidend, bleibt jedoch eine äußerst zeitintensive Aufgabe, insbesondere für Sequenzen mit bis zu 100.000 Tokens. Obwohl traditionelle spekulative Dekodierungsmethoden existieren, führt eine einfache Erweiterung ihrer Generierungsgrenzen nicht zu einer Beschleunigung des Prozesses und kann sogar nachteilig sein. Durch eine detaillierte Analyse identifizieren wir drei Hauptherausforderungen, die eine effiziente Generierung behindern: häufiges Neuladen des Modells, dynamische Verwaltung von Schlüssel-Wert-Paaren (KV) und repetitive Generierung. Um diese Probleme zu lösen, stellen wir TOKENSWIFT vor, ein neuartiges Framework, das entwickelt wurde, um den Generierungsprozess ultra-langer Sequenzen erheblich zu beschleunigen, während die inhärente Qualität des Zielmodells erhalten bleibt. Experimentelle Ergebnisse zeigen, dass TOKENSWIFT eine mehr als dreifache Beschleunigung über Modelle verschiedener Größen (1,5B, 7B, 8B, 14B) und Architekturen (MHA, GQA) hinweg erreicht. Diese Beschleunigung bedeutet eine Zeitersparnis von Stunden bei der Generierung ultra-langer Sequenzen und etabliert TOKENSWIFT als eine skalierbare und effektive Lösung für bisher unerreichte Längen. Der Code ist unter https://github.com/bigai-nlco/TokenSwift verfügbar.
English
Generating ultra-long sequences with large language models (LLMs) has become
increasingly crucial but remains a highly time-intensive task, particularly for
sequences up to 100K tokens. While traditional speculative decoding methods
exist, simply extending their generation limits fails to accelerate the process
and can be detrimental. Through an in-depth analysis, we identify three major
challenges hindering efficient generation: frequent model reloading, dynamic
key-value (KV) management and repetitive generation. To address these issues,
we introduce TOKENSWIFT, a novel framework designed to substantially accelerate
the generation process of ultra-long sequences while maintaining the target
model's inherent quality. Experimental results demonstrate that TOKENSWIFT
achieves over 3 times speedup across models of varying scales (1.5B, 7B, 8B,
14B) and architectures (MHA, GQA). This acceleration translates to hours of
time savings for ultra-long sequence generation, establishing TOKENSWIFT as a
scalable and effective solution at unprecedented lengths. Code can be found at
https://github.com/bigai-nlco/TokenSwift.Summary
AI-Generated Summary