Liger: Linearização de Modelos de Linguagem de Grande Escala em Estruturas Recorrentes com Portas
Liger: Linearizing Large Language Models to Gated Recurrent Structures
March 3, 2025
Autores: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng
cs.AI
Resumo
Transformers com modelagem recorrente linear oferecem treinamento em tempo linear e inferência com memória constante. Apesar de sua eficiência e desempenho comprovados, o pré-treinamento de tais arquiteturas não padronizadas a partir do zero continua sendo caro e arriscado. A linearização de grandes modelos de linguagem (LLMs) transforma modelos pré-treinados padrão em estruturas recorrentes lineares, permitindo uma implantação mais eficiente. No entanto, os métodos atuais de linearização geralmente introduzem módulos adicionais de mapeamento de características que exigem ajuste fino extensivo e ignoram os mecanismos de gating utilizados nos modelos recorrentes lineares de última geração. Para resolver esses problemas, este artigo apresenta o Liger, abreviação de Linearização de LLMs para estruturas recorrentes com gating. Liger é uma abordagem inovadora para converter LLMs pré-treinados em modelos recorrentes lineares com gating sem adicionar parâmetros extras. Ele reaproveita os pesos da matriz de chaves pré-treinada para construir diversos mecanismos de gating, facilitando a formação de várias estruturas recorrentes com gating, evitando a necessidade de treinar componentes adicionais do zero. Utilizando ajuste fino leve com Adaptação de Baixa Ordem (LoRA), o Liger restaura o desempenho dos modelos recorrentes lineares com gating para igualar o dos LLMs originais. Além disso, introduzimos o Liger Attention, um mecanismo híbrido de atenção intra-camada, que recupera significativamente 93\% do LLM baseado em Transformer com 0,02\% dos tokens de pré-treinamento durante o processo de linearização, alcançando resultados competitivos em vários benchmarks, conforme validado em modelos que variam de 1B a 8B parâmetros. O código está disponível em https://github.com/OpenSparseLLMs/Linearization.
English
Transformers with linear recurrent modeling offer linear-time training and
constant-memory inference. Despite their demonstrated efficiency and
performance, pretraining such non-standard architectures from scratch remains
costly and risky. The linearization of large language models (LLMs) transforms
pretrained standard models into linear recurrent structures, enabling more
efficient deployment. However, current linearization methods typically
introduce additional feature map modules that require extensive fine-tuning and
overlook the gating mechanisms used in state-of-the-art linear recurrent
models. To address these issues, this paper presents Liger, short for
Linearizing LLMs to gated recurrent structures. Liger is a novel approach for
converting pretrained LLMs into gated linear recurrent models without adding
extra parameters. It repurposes the pretrained key matrix weights to construct
diverse gating mechanisms, facilitating the formation of various gated
recurrent structures while avoiding the need to train additional components
from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA),
Liger restores the performance of the linearized gated recurrent models to
match that of the original LLMs. Additionally, we introduce Liger Attention, an
intra-layer hybrid attention mechanism, which significantly recovers 93\% of
the Transformer-based LLM at 0.02\% pre-training tokens during the
linearization process, achieving competitive results across multiple
benchmarks, as validated on models ranging from 1B to 8B parameters. Code is
available at https://github.com/OpenSparseLLMs/Linearization.Summary
AI-Generated Summary