Lizard : Un cadre de linéarisation efficace pour les grands modèles de langage
Lizard: An Efficient Linearization Framework for Large Language Models
July 11, 2025
papers.authors: Chien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
papers.abstract
Nous proposons Lizard, un cadre de linéarisation qui transforme les modèles de langage de grande taille (LLMs) basés sur des Transformers pré-entraînés en architectures flexibles et sous-quadratiques pour la génération de contexte infini. Les LLMs basés sur des Transformers rencontrent des goulots d'étranglement significatifs en termes de mémoire et de calcul à mesure que les longueurs de contexte augmentent, en raison de la complexité quadratique de l'attention softmax et de la croissance du cache clé-valeur (KV). Lizard résout ces limitations en introduisant un mécanisme d'attention sous-quadratique qui approxime étroitement l'attention softmax tout en préservant la qualité de la sortie. Contrairement aux méthodes de linéarisation précédentes, souvent limitées par des structures de modèles fixes et excluant donc les mécanismes de gating, Lizard intègre un module de gating inspiré des modèles linéaires récents de pointe. Cela permet un contrôle adaptatif de la mémoire, supporte une inférence à mémoire constante, offre une forte généralisation en longueur et permet une conception de modèle plus flexible. Lizard combine une attention linéaire avec gating pour la compression du contexte global avec une attention par fenêtre glissante améliorée par une méta-mémoire, formant un mécanisme hybride qui capture à la fois les dépendances à long terme et les interactions locales fines. De plus, nous introduisons un algorithme conscient du matériel qui accélère la vitesse d'entraînement de nos modèles. Des expériences approfondies montrent que Lizard atteint une récupération quasi sans perte des performances du modèle enseignant sur des tâches standard de modélisation du langage, tout en surpassant significativement les méthodes de linéarisation précédentes. Sur le benchmark MMLU en 5 essais, Lizard améliore les modèles antérieurs de 18 points et montre des améliorations significatives sur les tâches de rappel associatif.
English
We propose Lizard, a linearization framework that transforms pretrained
Transformer-based Large Language Models (LLMs) into flexible, subquadratic
architectures for infinite-context generation. Transformer-based LLMs face
significant memory and computational bottlenecks as context lengths increase,
due to the quadratic complexity of softmax attention and the growing key-value
(KV) cache. Lizard addresses these limitations by introducing a subquadratic
attention mechanism that closely approximates softmax attention while
preserving the output quality. Unlike previous linearization methods, which are
often limited by fixed model structures and therefore exclude gating
mechanisms, Lizard incorporates a gating module inspired by recent
state-of-the-art linear models. This enables adaptive memory control, supports
constant-memory inference, offers strong length generalization, and allows more
flexible model design. Lizard combines gated linear attention for global
context compression with sliding window attention enhanced by meta memory,
forming a hybrid mechanism that captures both long-range dependencies and
fine-grained local interactions. Moreover, we introduce a hardware-aware
algorithm that accelerates the training speed of our models. Extensive
experiments show that Lizard achieves near-lossless recovery of the teacher
model's performance across standard language modeling tasks, while
significantly outperforming previous linearization methods. On the 5-shot MMLU
benchmark, Lizard improves over prior models by 18 points and shows significant
improvements on associative recall tasks.