Lizard: Um Framework Eficiente de Linearização para Modelos de Linguagem de Grande Escala

Resumo

Propomos o Lizard, um framework de linearização que transforma modelos de linguagem grandes (LLMs) baseados em Transformers pré-treinados em arquiteturas flexíveis e subquadráticas para geração de contexto infinito. Os LLMs baseados em Transformers enfrentam gargalos significativos de memória e computação à medida que os comprimentos de contexto aumentam, devido à complexidade quadrática da atenção softmax e ao crescimento do cache de chave-valor (KV). O Lizard aborda essas limitações ao introduzir um mecanismo de atenção subquadrático que aproxima-se estreitamente da atenção softmax, preservando a qualidade da saída. Diferente de métodos de linearização anteriores, que são frequentemente limitados por estruturas de modelo fixas e, portanto, excluem mecanismos de gating, o Lizard incorpora um módulo de gating inspirado em modelos lineares state-of-the-art recentes. Isso permite controle adaptativo de memória, suporta inferência com memória constante, oferece forte generalização de comprimento e permite um design de modelo mais flexível. O Lizard combina atenção linear com gating para compressão de contexto global com atenção de janela deslizante aprimorada por meta memória, formando um mecanismo híbrido que captura tanto dependências de longo alcance quanto interações locais de granularidade fina. Além disso, introduzimos um algoritmo consciente de hardware que acelera a velocidade de treinamento de nossos modelos. Experimentos extensivos mostram que o Lizard alcança uma recuperação quase sem perdas do desempenho do modelo professor em tarefas padrão de modelagem de linguagem, enquanto supera significativamente métodos de linearização anteriores. No benchmark MMLU de 5-shot, o Lizard melhora em 18 pontos em relação a modelos anteriores e mostra melhorias significativas em tarefas de recall associativo.

English

We propose Lizard, a linearization framework that transforms pretrained Transformer-based Large Language Models (LLMs) into flexible, subquadratic architectures for infinite-context generation. Transformer-based LLMs face significant memory and computational bottlenecks as context lengths increase, due to the quadratic complexity of softmax attention and the growing key-value (KV) cache. Lizard addresses these limitations by introducing a subquadratic attention mechanism that closely approximates softmax attention while preserving the output quality. Unlike previous linearization methods, which are often limited by fixed model structures and therefore exclude gating mechanisms, Lizard incorporates a gating module inspired by recent state-of-the-art linear models. This enables adaptive memory control, supports constant-memory inference, offers strong length generalization, and allows more flexible model design. Lizard combines gated linear attention for global context compression with sliding window attention enhanced by meta memory, forming a hybrid mechanism that captures both long-range dependencies and fine-grained local interactions. Moreover, we introduce a hardware-aware algorithm that accelerates the training speed of our models. Extensive experiments show that Lizard achieves near-lossless recovery of the teacher model's performance across standard language modeling tasks, while significantly outperforming previous linearization methods. On the 5-shot MMLU benchmark, Lizard improves over prior models by 18 points and shows significant improvements on associative recall tasks.

Lizard: Um Framework Eficiente de Linearização para Modelos de Linguagem de Grande Escala

Lizard: An Efficient Linearization Framework for Large Language Models

Resumo

Support