ChatPaper.aiChatPaper

De Horas para Minutos: Aceleração sem Perdas na Geração de Sequências Ultra Longas de até 100 Mil Tokens

From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

February 26, 2025
Autores: Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng
cs.AI

Resumo

A geração de sequências ultra-longas com modelos de linguagem de grande escala (LLMs) tem se tornado cada vez mais crucial, mas continua sendo uma tarefa altamente demorada, especialmente para sequências de até 100 mil tokens. Embora métodos tradicionais de decodificação especulativa existam, simplesmente estender seus limites de geração não acelera o processo e pode ser prejudicial. Por meio de uma análise detalhada, identificamos três grandes desafios que impedem a geração eficiente: recarregamento frequente do modelo, gerenciamento dinâmico de chave-valor (KV) e geração repetitiva. Para abordar esses problemas, introduzimos o TOKENSWIFT, uma nova estrutura projetada para acelerar substancialmente o processo de geração de sequências ultra-longas, mantendo a qualidade inerente do modelo alvo. Resultados experimentais demonstram que o TOKENSWIFT alcança uma aceleração de mais de 3 vezes em modelos de diversas escalas (1,5B, 7B, 8B, 14B) e arquiteturas (MHA, GQA). Essa aceleração se traduz em horas de economia de tempo para a geração de sequências ultra-longas, estabelecendo o TOKENSWIFT como uma solução escalável e eficaz em comprimentos sem precedentes. O código pode ser encontrado em https://github.com/bigai-nlco/TokenSwift.
English
Generating ultra-long sequences with large language models (LLMs) has become increasingly crucial but remains a highly time-intensive task, particularly for sequences up to 100K tokens. While traditional speculative decoding methods exist, simply extending their generation limits fails to accelerate the process and can be detrimental. Through an in-depth analysis, we identify three major challenges hindering efficient generation: frequent model reloading, dynamic key-value (KV) management and repetitive generation. To address these issues, we introduce TOKENSWIFT, a novel framework designed to substantially accelerate the generation process of ultra-long sequences while maintaining the target model's inherent quality. Experimental results demonstrate that TOKENSWIFT achieves over 3 times speedup across models of varying scales (1.5B, 7B, 8B, 14B) and architectures (MHA, GQA). This acceleration translates to hours of time savings for ultra-long sequence generation, establishing TOKENSWIFT as a scalable and effective solution at unprecedented lengths. Code can be found at https://github.com/bigai-nlco/TokenSwift.

Summary

AI-Generated Summary

PDF302March 4, 2025