Lizard: Un marco de linealización eficiente para modelos de lenguaje a gran escala
Lizard: An Efficient Linearization Framework for Large Language Models
July 11, 2025
Autores: Chien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Resumen
Proponemos Lizard, un marco de linealización que transforma modelos de lenguaje grandes (LLMs) basados en Transformers preentrenados en arquitecturas flexibles y subcuadráticas para la generación de contexto infinito. Los LLMs basados en Transformers enfrentan cuellos de botella significativos de memoria y computación a medida que aumenta la longitud del contexto, debido a la complejidad cuadrática de la atención softmax y al crecimiento de la caché de claves-valores (KV). Lizard aborda estas limitaciones introduciendo un mecanismo de atención subcuadrática que aproxima estrechamente la atención softmax mientras preserva la calidad de la salida. A diferencia de métodos de linealización previos, que a menudo están limitados por estructuras de modelo fijas y, por lo tanto, excluyen mecanismos de compuerta, Lizard incorpora un módulo de compuerta inspirado en los últimos modelos lineales de vanguardia. Esto permite un control adaptativo de la memoria, soporta inferencia de memoria constante, ofrece una fuerte generalización de longitud y permite un diseño de modelo más flexible. Lizard combina atención lineal con compuerta para la compresión de contexto global con atención de ventana deslizante mejorada por memoria meta, formando un mecanismo híbrido que captura tanto dependencias de largo alcance como interacciones locales de grano fino. Además, introducimos un algoritmo consciente del hardware que acelera la velocidad de entrenamiento de nuestros modelos. Experimentos extensos muestran que Lizard logra una recuperación casi sin pérdidas del rendimiento del modelo maestro en tareas estándar de modelado de lenguaje, superando significativamente los métodos de linealización anteriores. En el benchmark MMLU de 5-shot, Lizard mejora en 18 puntos sobre modelos previos y muestra mejoras significativas en tareas de recuerdo asociativo.
English
We propose Lizard, a linearization framework that transforms pretrained
Transformer-based Large Language Models (LLMs) into flexible, subquadratic
architectures for infinite-context generation. Transformer-based LLMs face
significant memory and computational bottlenecks as context lengths increase,
due to the quadratic complexity of softmax attention and the growing key-value
(KV) cache. Lizard addresses these limitations by introducing a subquadratic
attention mechanism that closely approximates softmax attention while
preserving the output quality. Unlike previous linearization methods, which are
often limited by fixed model structures and therefore exclude gating
mechanisms, Lizard incorporates a gating module inspired by recent
state-of-the-art linear models. This enables adaptive memory control, supports
constant-memory inference, offers strong length generalization, and allows more
flexible model design. Lizard combines gated linear attention for global
context compression with sliding window attention enhanced by meta memory,
forming a hybrid mechanism that captures both long-range dependencies and
fine-grained local interactions. Moreover, we introduce a hardware-aware
algorithm that accelerates the training speed of our models. Extensive
experiments show that Lizard achieves near-lossless recovery of the teacher
model's performance across standard language modeling tasks, while
significantly outperforming previous linearization methods. On the 5-shot MMLU
benchmark, Lizard improves over prior models by 18 points and shows significant
improvements on associative recall tasks.