De horas a minutos: Aceleración sin pérdidas en la generación de secuencias ultra largas de hasta 100.000 tokens
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens
February 26, 2025
Autores: Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng
cs.AI
Resumen
La generación de secuencias ultra largas con modelos de lenguaje de gran escala (LLMs) se ha vuelto cada vez más crucial, pero sigue siendo una tarea altamente intensiva en tiempo, especialmente para secuencias de hasta 100K tokens. Si bien existen métodos tradicionales de decodificación especulativa, simplemente extender sus límites de generación no acelera el proceso y puede ser perjudicial. A través de un análisis en profundidad, identificamos tres desafíos principales que obstaculizan la generación eficiente: la recarga frecuente del modelo, la gestión dinámica de claves-valores (KV) y la generación repetitiva. Para abordar estos problemas, presentamos TOKENSWIFT, un marco novedoso diseñado para acelerar sustancialmente el proceso de generación de secuencias ultra largas mientras se mantiene la calidad inherente del modelo objetivo. Los resultados experimentales demuestran que TOKENSWIFT logra una aceleración de más de 3 veces en modelos de diversas escalas (1.5B, 7B, 8B, 14B) y arquitecturas (MHA, GQA). Esta aceleración se traduce en horas de ahorro de tiempo para la generación de secuencias ultra largas, estableciendo a TOKENSWIFT como una solución escalable y efectiva a longitudes sin precedentes. El código se puede encontrar en https://github.com/bigai-nlco/TokenSwift.
English
Generating ultra-long sequences with large language models (LLMs) has become
increasingly crucial but remains a highly time-intensive task, particularly for
sequences up to 100K tokens. While traditional speculative decoding methods
exist, simply extending their generation limits fails to accelerate the process
and can be detrimental. Through an in-depth analysis, we identify three major
challenges hindering efficient generation: frequent model reloading, dynamic
key-value (KV) management and repetitive generation. To address these issues,
we introduce TOKENSWIFT, a novel framework designed to substantially accelerate
the generation process of ultra-long sequences while maintaining the target
model's inherent quality. Experimental results demonstrate that TOKENSWIFT
achieves over 3 times speedup across models of varying scales (1.5B, 7B, 8B,
14B) and architectures (MHA, GQA). This acceleration translates to hours of
time savings for ultra-long sequence generation, establishing TOKENSWIFT as a
scalable and effective solution at unprecedented lengths. Code can be found at
https://github.com/bigai-nlco/TokenSwift.Summary
AI-Generated Summary