Lizard: Een efficiënt linearisatiekader voor grootschalige taalmodelen
Lizard: An Efficient Linearization Framework for Large Language Models
July 11, 2025
Auteurs: Chien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Samenvatting
We stellen Lizard voor, een linearisatieframework dat voorgetrainde Transformer-gebaseerde Large Language Models (LLMs) omzet in flexibele, subkwadratische architecturen voor generatie met oneindige context. Transformer-gebaseerde LLMs kampen met aanzienlijke geheugen- en rekenkundige knelpunten naarmate de contextlengte toeneemt, vanwege de kwadratische complexiteit van softmax-attentie en de groeiende key-value (KV)-cache. Lizard lost deze beperkingen op door een subkwadratisch aandachtmechanisme te introduceren dat softmax-attentie nauwkeurig benadert terwijl de uitvoerkwaliteit behouden blijft. In tegenstelling tot eerdere linearisatiemethoden, die vaak beperkt worden door vaste modelstructuren en daarom gatingmechanismen uitsluiten, integreert Lizard een gatingmodule geïnspireerd door recente state-of-the-art lineaire modellen. Dit maakt adaptieve geheugencontrole mogelijk, ondersteunt inferentie met constant geheugen, biedt sterke lengtegeneralizatie en zorgt voor een flexibelere modelontwerp. Lizard combineert gated lineaire aandacht voor globale contextcompressie met sliding window-attentie versterkt door meta-geheugen, waardoor een hybride mechanisme ontstaat dat zowel langeafstandsafhankelijkheden als fijnmazige lokale interacties vastlegt. Bovendien introduceren we een hardwarebewust algoritme dat de trainingssnelheid van onze modellen versnelt. Uitgebreide experimenten tonen aan dat Lizard een bijna verliesloos herstel van de prestaties van het leraarmodel bereikt bij standaard taalmodelleertaken, terwijl het aanzienlijk beter presteert dan eerdere linearisatiemethoden. Op de 5-shot MMLU-benchmark verbetert Lizard met 18 punten ten opzichte van eerdere modellen en laat het significante verbeteringen zien bij associatieve herinneringstaken.
English
We propose Lizard, a linearization framework that transforms pretrained
Transformer-based Large Language Models (LLMs) into flexible, subquadratic
architectures for infinite-context generation. Transformer-based LLMs face
significant memory and computational bottlenecks as context lengths increase,
due to the quadratic complexity of softmax attention and the growing key-value
(KV) cache. Lizard addresses these limitations by introducing a subquadratic
attention mechanism that closely approximates softmax attention while
preserving the output quality. Unlike previous linearization methods, which are
often limited by fixed model structures and therefore exclude gating
mechanisms, Lizard incorporates a gating module inspired by recent
state-of-the-art linear models. This enables adaptive memory control, supports
constant-memory inference, offers strong length generalization, and allows more
flexible model design. Lizard combines gated linear attention for global
context compression with sliding window attention enhanced by meta memory,
forming a hybrid mechanism that captures both long-range dependencies and
fine-grained local interactions. Moreover, we introduce a hardware-aware
algorithm that accelerates the training speed of our models. Extensive
experiments show that Lizard achieves near-lossless recovery of the teacher
model's performance across standard language modeling tasks, while
significantly outperforming previous linearization methods. On the 5-shot MMLU
benchmark, Lizard improves over prior models by 18 points and shows significant
improvements on associative recall tasks.