Lizard: Um Framework Eficiente de Linearização para Modelos de Linguagem de Grande Escala
Lizard: An Efficient Linearization Framework for Large Language Models
July 11, 2025
Autores: Chien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Resumo
Propomos o Lizard, um framework de linearização que transforma modelos de linguagem grandes (LLMs) baseados em Transformers pré-treinados em arquiteturas flexíveis e subquadráticas para geração de contexto infinito. Os LLMs baseados em Transformers enfrentam gargalos significativos de memória e computação à medida que os comprimentos de contexto aumentam, devido à complexidade quadrática da atenção softmax e ao crescimento do cache de chave-valor (KV). O Lizard aborda essas limitações ao introduzir um mecanismo de atenção subquadrático que aproxima-se estreitamente da atenção softmax, preservando a qualidade da saída. Diferente de métodos de linearização anteriores, que são frequentemente limitados por estruturas de modelo fixas e, portanto, excluem mecanismos de gating, o Lizard incorpora um módulo de gating inspirado em modelos lineares state-of-the-art recentes. Isso permite controle adaptativo de memória, suporta inferência com memória constante, oferece forte generalização de comprimento e permite um design de modelo mais flexível. O Lizard combina atenção linear com gating para compressão de contexto global com atenção de janela deslizante aprimorada por meta memória, formando um mecanismo híbrido que captura tanto dependências de longo alcance quanto interações locais de granularidade fina. Além disso, introduzimos um algoritmo consciente de hardware que acelera a velocidade de treinamento de nossos modelos. Experimentos extensivos mostram que o Lizard alcança uma recuperação quase sem perdas do desempenho do modelo professor em tarefas padrão de modelagem de linguagem, enquanto supera significativamente métodos de linearização anteriores. No benchmark MMLU de 5-shot, o Lizard melhora em 18 pontos em relação a modelos anteriores e mostra melhorias significativas em tarefas de recall associativo.
English
We propose Lizard, a linearization framework that transforms pretrained
Transformer-based Large Language Models (LLMs) into flexible, subquadratic
architectures for infinite-context generation. Transformer-based LLMs face
significant memory and computational bottlenecks as context lengths increase,
due to the quadratic complexity of softmax attention and the growing key-value
(KV) cache. Lizard addresses these limitations by introducing a subquadratic
attention mechanism that closely approximates softmax attention while
preserving the output quality. Unlike previous linearization methods, which are
often limited by fixed model structures and therefore exclude gating
mechanisms, Lizard incorporates a gating module inspired by recent
state-of-the-art linear models. This enables adaptive memory control, supports
constant-memory inference, offers strong length generalization, and allows more
flexible model design. Lizard combines gated linear attention for global
context compression with sliding window attention enhanced by meta memory,
forming a hybrid mechanism that captures both long-range dependencies and
fine-grained local interactions. Moreover, we introduce a hardware-aware
algorithm that accelerates the training speed of our models. Extensive
experiments show that Lizard achieves near-lossless recovery of the teacher
model's performance across standard language modeling tasks, while
significantly outperforming previous linearization methods. On the 5-shot MMLU
benchmark, Lizard improves over prior models by 18 points and shows significant
improvements on associative recall tasks.