SepLLM: Acelerar Modelos de Lenguaje Grandes Comprimiendo un Segmento en un Separador
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
December 16, 2024
Autores: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado un rendimiento excepcional en una variedad de tareas de procesamiento de lenguaje natural. Sin embargo, sus tamaños substanciales plantean desafíos considerables, especialmente en términos de demandas computacionales y velocidad de inferencia, debido a su complejidad cuadrática. En este trabajo, hemos identificado un patrón clave: ciertos tokens especiales aparentemente sin significado (es decir, separadores) contribuyen de manera desproporcionada a las puntuaciones de atención en comparación con los tokens semánticamente significativos. Esta observación sugiere que la información de los segmentos entre estos tokens separadores puede ser efectivamente condensada en los propios tokens separadores sin una pérdida significativa de información. Guiados por esta perspicacia, presentamos SepLLM, un marco plug-and-play que acelera la inferencia comprimiendo estos segmentos y eliminando tokens redundantes. Además, implementamos núcleos eficientes para acelerar el entrenamiento. Los resultados experimentales en configuraciones sin entrenamiento, entrenamiento desde cero y post-entrenamiento demuestran la efectividad de SepLLM. Destacadamente, utilizando el esqueleto Llama-3-8B, SepLLM logra una reducción de más del 50% en la caché KV en la prueba GSM8K-CoT manteniendo un rendimiento comparable. Además, en configuraciones de transmisión, SepLLM procesa eficazmente secuencias de hasta 4 millones de tokens o más manteniendo capacidades consistentes de modelado de lenguaje.
English
Large Language Models (LLMs) have exhibited exceptional performance across a
spectrum of natural language processing tasks. However, their substantial sizes
pose considerable challenges, particularly in computational demands and
inference speed, due to their quadratic complexity. In this work, we have
identified a key pattern: certain seemingly meaningless special tokens (i.e.,
separators) contribute disproportionately to attention scores compared to
semantically meaningful tokens. This observation suggests that information of
the segments between these separator tokens can be effectively condensed into
the separator tokens themselves without significant information loss. Guided by
this insight, we introduce SepLLM, a plug-and-play framework that accelerates
inference by compressing these segments and eliminating redundant tokens.
Additionally, we implement efficient kernels for training acceleration.
Experimental results across training-free, training-from-scratch, and
post-training settings demonstrate SepLLM's effectiveness. Notably, using the
Llama-3-8B backbone, SepLLM achieves over 50% reduction in KV cache on the
GSM8K-CoT benchmark while maintaining comparable performance. Furthermore, in
streaming settings, SepLLM effectively processes sequences of up to 4 million
tokens or more while maintaining consistent language modeling capabilities.Summary
AI-Generated Summary