ChatPaper.aiChatPaper

Van uren naar minuten: Verliesvrije versnelling van ultra-lange sequentiegeneratie tot 100K tokens

From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

February 26, 2025
Auteurs: Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng
cs.AI

Samenvatting

Het genereren van ultra-lange sequenties met grote taalmodellen (LLM's) is steeds belangrijker geworden, maar blijft een zeer tijdrovende taak, vooral voor sequenties tot 100K tokens. Hoewel traditionele methoden voor speculatief decoderen bestaan, leidt het simpelweg verlengen van hun generatielimieten niet tot een versnelling van het proces en kan dit zelfs schadelijk zijn. Door een diepgaande analyse hebben we drie grote uitdagingen geïdentificeerd die een efficiënte generatie belemmeren: frequent herladen van het model, dynamisch beheer van sleutel-waarde (KV) paren en repetitieve generatie. Om deze problemen aan te pakken, introduceren we TOKENSWIFT, een nieuw framework ontworpen om het generatieproces van ultra-lange sequenties aanzienlijk te versnellen, terwijl de inherente kwaliteit van het doelmodel behouden blijft. Experimentele resultaten tonen aan dat TOKENSWIFT een versnelling van meer dan 3 keer bereikt over modellen van verschillende schalen (1.5B, 7B, 8B, 14B) en architecturen (MHA, GQA). Deze versnelling vertaalt zich naar uren tijdwinst bij het genereren van ultra-lange sequenties, waardoor TOKENSWIFT een schaalbare en effectieve oplossing is op ongekende lengtes. De code is te vinden op https://github.com/bigai-nlco/TokenSwift.
English
Generating ultra-long sequences with large language models (LLMs) has become increasingly crucial but remains a highly time-intensive task, particularly for sequences up to 100K tokens. While traditional speculative decoding methods exist, simply extending their generation limits fails to accelerate the process and can be detrimental. Through an in-depth analysis, we identify three major challenges hindering efficient generation: frequent model reloading, dynamic key-value (KV) management and repetitive generation. To address these issues, we introduce TOKENSWIFT, a novel framework designed to substantially accelerate the generation process of ultra-long sequences while maintaining the target model's inherent quality. Experimental results demonstrate that TOKENSWIFT achieves over 3 times speedup across models of varying scales (1.5B, 7B, 8B, 14B) and architectures (MHA, GQA). This acceleration translates to hours of time savings for ultra-long sequence generation, establishing TOKENSWIFT as a scalable and effective solution at unprecedented lengths. Code can be found at https://github.com/bigai-nlco/TokenSwift.

Summary

AI-Generated Summary

PDF302March 4, 2025