Lizard: Un marco de linealización eficiente para modelos de lenguaje a gran escala

Resumen

Proponemos Lizard, un marco de linealización que transforma modelos de lenguaje grandes (LLMs) basados en Transformers preentrenados en arquitecturas flexibles y subcuadráticas para la generación de contexto infinito. Los LLMs basados en Transformers enfrentan cuellos de botella significativos de memoria y computación a medida que aumenta la longitud del contexto, debido a la complejidad cuadrática de la atención softmax y al crecimiento de la caché de claves-valores (KV). Lizard aborda estas limitaciones introduciendo un mecanismo de atención subcuadrática que aproxima estrechamente la atención softmax mientras preserva la calidad de la salida. A diferencia de métodos de linealización previos, que a menudo están limitados por estructuras de modelo fijas y, por lo tanto, excluyen mecanismos de compuerta, Lizard incorpora un módulo de compuerta inspirado en los últimos modelos lineales de vanguardia. Esto permite un control adaptativo de la memoria, soporta inferencia de memoria constante, ofrece una fuerte generalización de longitud y permite un diseño de modelo más flexible. Lizard combina atención lineal con compuerta para la compresión de contexto global con atención de ventana deslizante mejorada por memoria meta, formando un mecanismo híbrido que captura tanto dependencias de largo alcance como interacciones locales de grano fino. Además, introducimos un algoritmo consciente del hardware que acelera la velocidad de entrenamiento de nuestros modelos. Experimentos extensos muestran que Lizard logra una recuperación casi sin pérdidas del rendimiento del modelo maestro en tareas estándar de modelado de lenguaje, superando significativamente los métodos de linealización anteriores. En el benchmark MMLU de 5-shot, Lizard mejora en 18 puntos sobre modelos previos y muestra mejoras significativas en tareas de recuerdo asociativo.

English

We propose Lizard, a linearization framework that transforms pretrained Transformer-based Large Language Models (LLMs) into flexible, subquadratic architectures for infinite-context generation. Transformer-based LLMs face significant memory and computational bottlenecks as context lengths increase, due to the quadratic complexity of softmax attention and the growing key-value (KV) cache. Lizard addresses these limitations by introducing a subquadratic attention mechanism that closely approximates softmax attention while preserving the output quality. Unlike previous linearization methods, which are often limited by fixed model structures and therefore exclude gating mechanisms, Lizard incorporates a gating module inspired by recent state-of-the-art linear models. This enables adaptive memory control, supports constant-memory inference, offers strong length generalization, and allows more flexible model design. Lizard combines gated linear attention for global context compression with sliding window attention enhanced by meta memory, forming a hybrid mechanism that captures both long-range dependencies and fine-grained local interactions. Moreover, we introduce a hardware-aware algorithm that accelerates the training speed of our models. Extensive experiments show that Lizard achieves near-lossless recovery of the teacher model's performance across standard language modeling tasks, while significantly outperforming previous linearization methods. On the 5-shot MMLU benchmark, Lizard improves over prior models by 18 points and shows significant improvements on associative recall tasks.

Lizard: Un marco de linealización eficiente para modelos de lenguaje a gran escala

Lizard: An Efficient Linearization Framework for Large Language Models

Resumen

Support