ChatPaper.aiChatPaper

Da ore a minuti: accelerazione senza perdite della generazione di sequenze ultra lunghe fino a 100K token

From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

February 26, 2025
Autori: Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng
cs.AI

Abstract

La generazione di sequenze ultra-lunghe con modelli linguistici di grandi dimensioni (LLM) è diventata sempre più cruciale, ma rimane un compito estremamente dispendioso in termini di tempo, specialmente per sequenze fino a 100K token. Sebbene esistano metodi tradizionali di decodifica speculativa, il semplice estendere i loro limiti di generazione non accelera il processo e può risultare controproducente. Attraverso un'analisi approfondita, abbiamo identificato tre principali sfide che ostacolano una generazione efficiente: il frequente ricaricamento del modello, la gestione dinamica delle chiavi-valori (KV) e la generazione ripetitiva. Per affrontare questi problemi, introduciamo TOKENSWIFT, un nuovo framework progettato per accelerare significativamente il processo di generazione di sequenze ultra-lunghe, mantenendo la qualità intrinseca del modello target. I risultati sperimentali dimostrano che TOKENSWIFT raggiunge un'accelerazione di oltre 3 volte su modelli di varie dimensioni (1.5B, 7B, 8B, 14B) e architetture (MHA, GQA). Questa accelerazione si traduce in ore di risparmio di tempo per la generazione di sequenze ultra-lunghe, stabilendo TOKENSWIFT come una soluzione scalabile ed efficace a lunghezze senza precedenti. Il codice è disponibile all'indirizzo https://github.com/bigai-nlco/TokenSwift.
English
Generating ultra-long sequences with large language models (LLMs) has become increasingly crucial but remains a highly time-intensive task, particularly for sequences up to 100K tokens. While traditional speculative decoding methods exist, simply extending their generation limits fails to accelerate the process and can be detrimental. Through an in-depth analysis, we identify three major challenges hindering efficient generation: frequent model reloading, dynamic key-value (KV) management and repetitive generation. To address these issues, we introduce TOKENSWIFT, a novel framework designed to substantially accelerate the generation process of ultra-long sequences while maintaining the target model's inherent quality. Experimental results demonstrate that TOKENSWIFT achieves over 3 times speedup across models of varying scales (1.5B, 7B, 8B, 14B) and architectures (MHA, GQA). This acceleration translates to hours of time savings for ultra-long sequence generation, establishing TOKENSWIFT as a scalable and effective solution at unprecedented lengths. Code can be found at https://github.com/bigai-nlco/TokenSwift.
PDF302March 4, 2025