ChatPaper.aiChatPaper

De plusieurs heures à quelques minutes : accélération sans perte de la génération de séquences ultra-longues jusqu'à 100 000 tokens

From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

February 26, 2025
Auteurs: Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng
cs.AI

Résumé

La génération de séquences ultra-longues avec des modèles de langage de grande taille (LLMs) est devenue de plus en plus cruciale, mais reste une tâche extrêmement chronophage, en particulier pour des séquences allant jusqu'à 100 000 tokens. Bien que des méthodes traditionnelles de décodage spéculatif existent, le simple fait d'étendre leurs limites de génération ne permet pas d'accélérer le processus et peut même s'avérer contre-productif. À travers une analyse approfondie, nous identifions trois défis majeurs entravant une génération efficace : le rechargement fréquent du modèle, la gestion dynamique des clés-valeurs (KV) et la génération répétitive. Pour résoudre ces problèmes, nous introduisons TOKENSWIFT, un nouveau cadre conçu pour accélérer considérablement le processus de génération de séquences ultra-longues tout en préservant la qualité intrinsèque du modèle cible. Les résultats expérimentaux démontrent que TOKENSWIFT permet une accélération de plus de 3 fois sur des modèles de différentes échelles (1,5B, 7B, 8B, 14B) et architectures (MHA, GQA). Cette accélération se traduit par des économies de temps de plusieurs heures pour la génération de séquences ultra-longues, établissant TOKENSWIFT comme une solution scalable et efficace à des longueurs sans précédent. Le code est disponible à l'adresse suivante : https://github.com/bigai-nlco/TokenSwift.
English
Generating ultra-long sequences with large language models (LLMs) has become increasingly crucial but remains a highly time-intensive task, particularly for sequences up to 100K tokens. While traditional speculative decoding methods exist, simply extending their generation limits fails to accelerate the process and can be detrimental. Through an in-depth analysis, we identify three major challenges hindering efficient generation: frequent model reloading, dynamic key-value (KV) management and repetitive generation. To address these issues, we introduce TOKENSWIFT, a novel framework designed to substantially accelerate the generation process of ultra-long sequences while maintaining the target model's inherent quality. Experimental results demonstrate that TOKENSWIFT achieves over 3 times speedup across models of varying scales (1.5B, 7B, 8B, 14B) and architectures (MHA, GQA). This acceleration translates to hours of time savings for ultra-long sequence generation, establishing TOKENSWIFT as a scalable and effective solution at unprecedented lengths. Code can be found at https://github.com/bigai-nlco/TokenSwift.

Summary

AI-Generated Summary

PDF302March 4, 2025