Lizard: Un Framework Efficiente di Linearizzazione per Modelli Linguistici di Grande Scala

Abstract

Proponiamo Lizard, un framework di linearizzazione che trasforma modelli linguistici di grandi dimensioni (LLM) basati su Transformer pre-addestrati in architetture flessibili e sub-quadratiche per la generazione di contesto infinito. I LLM basati su Transformer affrontano significativi colli di bottiglia di memoria e computazione all'aumentare della lunghezza del contesto, a causa della complessità quadratica dell'attenzione softmax e della crescita della cache chiave-valore (KV). Lizard affronta queste limitazioni introducendo un meccanismo di attenzione sub-quadratica che approssima strettamente l'attenzione softmax preservando la qualità dell'output. A differenza dei precedenti metodi di linearizzazione, spesso limitati da strutture di modello fisse che escludono meccanismi di gating, Lizard incorpora un modulo di gating ispirato dai recenti modelli lineari all'avanguardia. Ciò consente un controllo adattivo della memoria, supporta inferenza a memoria costante, offre una forte generalizzazione sulla lunghezza e permette una progettazione del modello più flessibile. Lizard combina l'attenzione lineare con gating per la compressione del contesto globale con l'attenzione a finestra scorrevole potenziata da meta-memoria, formando un meccanismo ibrido che cattura sia le dipendenze a lungo raggio che le interazioni locali dettagliate. Inoltre, introduciamo un algoritmo hardware-aware che accelera la velocità di addestramento dei nostri modelli. Esperimenti estesi dimostrano che Lizard raggiunge un recupero quasi senza perdite delle prestazioni del modello insegnante in compiti standard di modellazione del linguaggio, superando significativamente i precedenti metodi di linearizzazione. Sul benchmark MMLU a 5-shot, Lizard migliora di 18 punti rispetto ai modelli precedenti e mostra miglioramenti significativi nei compiti di richiamo associativo.

English

We propose Lizard, a linearization framework that transforms pretrained Transformer-based Large Language Models (LLMs) into flexible, subquadratic architectures for infinite-context generation. Transformer-based LLMs face significant memory and computational bottlenecks as context lengths increase, due to the quadratic complexity of softmax attention and the growing key-value (KV) cache. Lizard addresses these limitations by introducing a subquadratic attention mechanism that closely approximates softmax attention while preserving the output quality. Unlike previous linearization methods, which are often limited by fixed model structures and therefore exclude gating mechanisms, Lizard incorporates a gating module inspired by recent state-of-the-art linear models. This enables adaptive memory control, supports constant-memory inference, offers strong length generalization, and allows more flexible model design. Lizard combines gated linear attention for global context compression with sliding window attention enhanced by meta memory, forming a hybrid mechanism that captures both long-range dependencies and fine-grained local interactions. Moreover, we introduce a hardware-aware algorithm that accelerates the training speed of our models. Extensive experiments show that Lizard achieves near-lossless recovery of the teacher model's performance across standard language modeling tasks, while significantly outperforming previous linearization methods. On the 5-shot MMLU benchmark, Lizard improves over prior models by 18 points and shows significant improvements on associative recall tasks.

Lizard: Un Framework Efficiente di Linearizzazione per Modelli Linguistici di Grande Scala

Lizard: An Efficient Linearization Framework for Large Language Models

Abstract

Support