Lizard: Ein effizientes Linearisierungs-Framework für große Sprachmodelle
Lizard: An Efficient Linearization Framework for Large Language Models
July 11, 2025
papers.authors: Chien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
papers.abstract
Wir stellen Lizard vor, ein Linearisierungsframework, das vortrainierte Transformer-basierte Large Language Models (LLMs) in flexible, subquadratische Architekturen für die Generierung von unendlich langen Kontexten transformiert. Transformer-basierte LLMs stoßen mit zunehmender Kontextlänge auf erhebliche Speicher- und Rechenengpässe, bedingt durch die quadratische Komplexität der Softmax-Attention und den wachsenden Key-Value (KV)-Cache. Lizard adressiert diese Einschränkungen durch die Einführung eines subquadratischen Attention-Mechanismus, der die Softmax-Attention eng approximiert und dabei die Ausgabequalität bewahrt. Im Gegensatz zu früheren Linearisierungsmethoden, die oft durch feste Modellstrukturen begrenzt sind und daher Gating-Mechanismen ausschließen, integriert Lizard ein Gating-Modul, das von aktuellen state-of-the-art linearen Modellen inspiriert ist. Dies ermöglicht eine adaptive Speichersteuerung, unterstützt Inferenz mit konstantem Speicherbedarf, bietet eine starke Längengeneralisierung und erlaubt ein flexibleres Modell-Design. Lizard kombiniert gated lineare Attention für die globale Kontextkompression mit Sliding-Window-Attention, die durch Meta-Speicher erweitert wird, und bildet so einen hybriden Mechanismus, der sowohl langreichweitige Abhängigkeiten als auch fein abgestimmte lokale Interaktionen erfasst. Darüber hinaus führen wir einen hardwarebewussten Algorithmus ein, der die Trainingsgeschwindigkeit unserer Modelle beschleunigt. Umfangreiche Experimente zeigen, dass Lizard eine nahezu verlustfreie Wiederherstellung der Leistung des Lehrermodells über Standard-Sprachmodellierungsaufgaben hinweg erreicht und dabei frühere Linearisierungsmethoden deutlich übertrifft. Auf dem 5-Shot-MMLU-Benchmark verbessert sich Lizard um 18 Punkte gegenüber früheren Modellen und zeigt signifikante Verbesserungen bei Aufgaben zum assoziativen Abruf.
English
We propose Lizard, a linearization framework that transforms pretrained
Transformer-based Large Language Models (LLMs) into flexible, subquadratic
architectures for infinite-context generation. Transformer-based LLMs face
significant memory and computational bottlenecks as context lengths increase,
due to the quadratic complexity of softmax attention and the growing key-value
(KV) cache. Lizard addresses these limitations by introducing a subquadratic
attention mechanism that closely approximates softmax attention while
preserving the output quality. Unlike previous linearization methods, which are
often limited by fixed model structures and therefore exclude gating
mechanisms, Lizard incorporates a gating module inspired by recent
state-of-the-art linear models. This enables adaptive memory control, supports
constant-memory inference, offers strong length generalization, and allows more
flexible model design. Lizard combines gated linear attention for global
context compression with sliding window attention enhanced by meta memory,
forming a hybrid mechanism that captures both long-range dependencies and
fine-grained local interactions. Moreover, we introduce a hardware-aware
algorithm that accelerates the training speed of our models. Extensive
experiments show that Lizard achieves near-lossless recovery of the teacher
model's performance across standard language modeling tasks, while
significantly outperforming previous linearization methods. On the 5-shot MMLU
benchmark, Lizard improves over prior models by 18 points and shows significant
improvements on associative recall tasks.