Lizard: Een efficiënt linearisatiekader voor grootschalige taalmodelen

Samenvatting

We stellen Lizard voor, een linearisatieframework dat voorgetrainde Transformer-gebaseerde Large Language Models (LLMs) omzet in flexibele, subkwadratische architecturen voor generatie met oneindige context. Transformer-gebaseerde LLMs kampen met aanzienlijke geheugen- en rekenkundige knelpunten naarmate de contextlengte toeneemt, vanwege de kwadratische complexiteit van softmax-attentie en de groeiende key-value (KV)-cache. Lizard lost deze beperkingen op door een subkwadratisch aandachtmechanisme te introduceren dat softmax-attentie nauwkeurig benadert terwijl de uitvoerkwaliteit behouden blijft. In tegenstelling tot eerdere linearisatiemethoden, die vaak beperkt worden door vaste modelstructuren en daarom gatingmechanismen uitsluiten, integreert Lizard een gatingmodule geïnspireerd door recente state-of-the-art lineaire modellen. Dit maakt adaptieve geheugencontrole mogelijk, ondersteunt inferentie met constant geheugen, biedt sterke lengtegeneralizatie en zorgt voor een flexibelere modelontwerp. Lizard combineert gated lineaire aandacht voor globale contextcompressie met sliding window-attentie versterkt door meta-geheugen, waardoor een hybride mechanisme ontstaat dat zowel langeafstandsafhankelijkheden als fijnmazige lokale interacties vastlegt. Bovendien introduceren we een hardwarebewust algoritme dat de trainingssnelheid van onze modellen versnelt. Uitgebreide experimenten tonen aan dat Lizard een bijna verliesloos herstel van de prestaties van het leraarmodel bereikt bij standaard taalmodelleertaken, terwijl het aanzienlijk beter presteert dan eerdere linearisatiemethoden. Op de 5-shot MMLU-benchmark verbetert Lizard met 18 punten ten opzichte van eerdere modellen en laat het significante verbeteringen zien bij associatieve herinneringstaken.

English

We propose Lizard, a linearization framework that transforms pretrained Transformer-based Large Language Models (LLMs) into flexible, subquadratic architectures for infinite-context generation. Transformer-based LLMs face significant memory and computational bottlenecks as context lengths increase, due to the quadratic complexity of softmax attention and the growing key-value (KV) cache. Lizard addresses these limitations by introducing a subquadratic attention mechanism that closely approximates softmax attention while preserving the output quality. Unlike previous linearization methods, which are often limited by fixed model structures and therefore exclude gating mechanisms, Lizard incorporates a gating module inspired by recent state-of-the-art linear models. This enables adaptive memory control, supports constant-memory inference, offers strong length generalization, and allows more flexible model design. Lizard combines gated linear attention for global context compression with sliding window attention enhanced by meta memory, forming a hybrid mechanism that captures both long-range dependencies and fine-grained local interactions. Moreover, we introduce a hardware-aware algorithm that accelerates the training speed of our models. Extensive experiments show that Lizard achieves near-lossless recovery of the teacher model's performance across standard language modeling tasks, while significantly outperforming previous linearization methods. On the 5-shot MMLU benchmark, Lizard improves over prior models by 18 points and shows significant improvements on associative recall tasks.

Lizard: Een efficiënt linearisatiekader voor grootschalige taalmodelen

Lizard: An Efficient Linearization Framework for Large Language Models

Samenvatting

Support