Lizard: Эффективный фреймворк для линеаризации крупных языковых моделей

Аннотация

Мы представляем Lizard — фреймворк для линеаризации, который преобразует предобученные трансформерные модели больших языковых моделей (LLM) в гибкие субквадратичные архитектуры для генерации с бесконечным контекстом. Трансформерные LLM сталкиваются с существенными ограничениями памяти и вычислительной сложности при увеличении длины контекста из-за квадратичной сложности softmax-внимания и растущего кэша ключей-значений (KV). Lizard устраняет эти ограничения, вводя субквадратичный механизм внимания, который близко аппроксимирует softmax-внимание, сохраняя при этом качество выходных данных. В отличие от предыдущих методов линеаризации, которые часто ограничены фиксированными структурами моделей и исключают механизмы гейтинга, Lizard включает модуль гейтинга, вдохновленный современными линейными моделями. Это позволяет адаптивно управлять памятью, поддерживать вывод с постоянной памятью, обеспечивать сильное обобщение на длинных последовательностях и предоставляет более гибкий дизайн модели. Lizard сочетает гейтированное линейное внимание для глобального сжатия контекста с вниманием скользящего окна, усиленным мета-памятью, формируя гибридный механизм, который захватывает как долгосрочные зависимости, так и тонкие локальные взаимодействия. Кроме того, мы представляем аппаратно-ориентированный алгоритм, который ускоряет обучение наших моделей. Многочисленные эксперименты показывают, что Lizard достигает почти без потерь восстановления производительности учительской модели на стандартных задачах языкового моделирования, значительно превосходя предыдущие методы линеаризации. На бенчмарке MMLU с 5-shot Lizard улучшает результаты предыдущих моделей на 18 пунктов и демонстрирует значительные улучшения на задачах ассоциативного воспроизведения.

English

We propose Lizard, a linearization framework that transforms pretrained Transformer-based Large Language Models (LLMs) into flexible, subquadratic architectures for infinite-context generation. Transformer-based LLMs face significant memory and computational bottlenecks as context lengths increase, due to the quadratic complexity of softmax attention and the growing key-value (KV) cache. Lizard addresses these limitations by introducing a subquadratic attention mechanism that closely approximates softmax attention while preserving the output quality. Unlike previous linearization methods, which are often limited by fixed model structures and therefore exclude gating mechanisms, Lizard incorporates a gating module inspired by recent state-of-the-art linear models. This enables adaptive memory control, supports constant-memory inference, offers strong length generalization, and allows more flexible model design. Lizard combines gated linear attention for global context compression with sliding window attention enhanced by meta memory, forming a hybrid mechanism that captures both long-range dependencies and fine-grained local interactions. Moreover, we introduce a hardware-aware algorithm that accelerates the training speed of our models. Extensive experiments show that Lizard achieves near-lossless recovery of the teacher model's performance across standard language modeling tasks, while significantly outperforming previous linearization methods. On the 5-shot MMLU benchmark, Lizard improves over prior models by 18 points and shows significant improvements on associative recall tasks.

Lizard: Эффективный фреймворк для линеаризации крупных языковых моделей

Lizard: An Efficient Linearization Framework for Large Language Models

Аннотация

Support