Lizard: Ein effizientes Linearisierungs-Framework für große Sprachmodelle

papers.abstract

Wir stellen Lizard vor, ein Linearisierungsframework, das vortrainierte Transformer-basierte Large Language Models (LLMs) in flexible, subquadratische Architekturen für die Generierung von unendlich langen Kontexten transformiert. Transformer-basierte LLMs stoßen mit zunehmender Kontextlänge auf erhebliche Speicher- und Rechenengpässe, bedingt durch die quadratische Komplexität der Softmax-Attention und den wachsenden Key-Value (KV)-Cache. Lizard adressiert diese Einschränkungen durch die Einführung eines subquadratischen Attention-Mechanismus, der die Softmax-Attention eng approximiert und dabei die Ausgabequalität bewahrt. Im Gegensatz zu früheren Linearisierungsmethoden, die oft durch feste Modellstrukturen begrenzt sind und daher Gating-Mechanismen ausschließen, integriert Lizard ein Gating-Modul, das von aktuellen state-of-the-art linearen Modellen inspiriert ist. Dies ermöglicht eine adaptive Speichersteuerung, unterstützt Inferenz mit konstantem Speicherbedarf, bietet eine starke Längengeneralisierung und erlaubt ein flexibleres Modell-Design. Lizard kombiniert gated lineare Attention für die globale Kontextkompression mit Sliding-Window-Attention, die durch Meta-Speicher erweitert wird, und bildet so einen hybriden Mechanismus, der sowohl langreichweitige Abhängigkeiten als auch fein abgestimmte lokale Interaktionen erfasst. Darüber hinaus führen wir einen hardwarebewussten Algorithmus ein, der die Trainingsgeschwindigkeit unserer Modelle beschleunigt. Umfangreiche Experimente zeigen, dass Lizard eine nahezu verlustfreie Wiederherstellung der Leistung des Lehrermodells über Standard-Sprachmodellierungsaufgaben hinweg erreicht und dabei frühere Linearisierungsmethoden deutlich übertrifft. Auf dem 5-Shot-MMLU-Benchmark verbessert sich Lizard um 18 Punkte gegenüber früheren Modellen und zeigt signifikante Verbesserungen bei Aufgaben zum assoziativen Abruf.

English

We propose Lizard, a linearization framework that transforms pretrained Transformer-based Large Language Models (LLMs) into flexible, subquadratic architectures for infinite-context generation. Transformer-based LLMs face significant memory and computational bottlenecks as context lengths increase, due to the quadratic complexity of softmax attention and the growing key-value (KV) cache. Lizard addresses these limitations by introducing a subquadratic attention mechanism that closely approximates softmax attention while preserving the output quality. Unlike previous linearization methods, which are often limited by fixed model structures and therefore exclude gating mechanisms, Lizard incorporates a gating module inspired by recent state-of-the-art linear models. This enables adaptive memory control, supports constant-memory inference, offers strong length generalization, and allows more flexible model design. Lizard combines gated linear attention for global context compression with sliding window attention enhanced by meta memory, forming a hybrid mechanism that captures both long-range dependencies and fine-grained local interactions. Moreover, we introduce a hardware-aware algorithm that accelerates the training speed of our models. Extensive experiments show that Lizard achieves near-lossless recovery of the teacher model's performance across standard language modeling tasks, while significantly outperforming previous linearization methods. On the 5-shot MMLU benchmark, Lizard improves over prior models by 18 points and shows significant improvements on associative recall tasks.

Lizard: Ein effizientes Linearisierungs-Framework für große Sprachmodelle

Lizard: An Efficient Linearization Framework for Large Language Models

papers.abstract

Support