Liger: Linearizzazione di Modelli Linguistici di Grande Scala in Strutture Ricorrenti a Cancello
Liger: Linearizing Large Language Models to Gated Recurrent Structures
March 3, 2025
Autori: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng
cs.AI
Abstract
I Transformer con modellazione ricorrente lineare offrono un addestramento in tempo lineare e un'inferenza a memoria costante. Nonostante la loro efficienza e prestazioni dimostrate, il pretraining di tali architetture non standard da zero rimane costoso e rischioso. La linearizzazione di grandi modelli linguistici (LLM) trasforma i modelli standard preaddestrati in strutture ricorrenti lineari, consentendo un dispiegamento più efficiente. Tuttavia, i metodi di linearizzazione attuali introducono tipicamente moduli aggiuntivi di mappatura delle caratteristiche che richiedono un'estesa messa a punto e trascurano i meccanismi di gating utilizzati nei modelli ricorrenti lineari all'avanguardia. Per affrontare questi problemi, questo articolo presenta Liger, abbreviazione di Linearizing LLMs to gated recurrent structures. Liger è un approccio innovativo per convertire LLM preaddestrati in modelli ricorrenti lineari con gating senza aggiungere parametri extra. Riusa i pesi della matrice chiave preaddestrata per costruire diversi meccanismi di gating, facilitando la formazione di varie strutture ricorrenti con gating ed evitando la necessità di addestrare componenti aggiuntivi da zero. Utilizzando una messa a punto leggera con Low-Rank Adaptation (LoRA), Liger ripristina le prestazioni dei modelli ricorrenti lineari con gating per eguagliare quelle degli LLM originali. Inoltre, introduciamo Liger Attention, un meccanismo di attenzione ibrida intra-strato, che recupera significativamente il 93\% dell'LLM basato su Transformer con lo 0.02\% dei token di pretraining durante il processo di linearizzazione, ottenendo risultati competitivi su più benchmark, come validato su modelli che vanno da 1B a 8B parametri. Il codice è disponibile all'indirizzo https://github.com/OpenSparseLLMs/Linearization.
English
Transformers with linear recurrent modeling offer linear-time training and
constant-memory inference. Despite their demonstrated efficiency and
performance, pretraining such non-standard architectures from scratch remains
costly and risky. The linearization of large language models (LLMs) transforms
pretrained standard models into linear recurrent structures, enabling more
efficient deployment. However, current linearization methods typically
introduce additional feature map modules that require extensive fine-tuning and
overlook the gating mechanisms used in state-of-the-art linear recurrent
models. To address these issues, this paper presents Liger, short for
Linearizing LLMs to gated recurrent structures. Liger is a novel approach for
converting pretrained LLMs into gated linear recurrent models without adding
extra parameters. It repurposes the pretrained key matrix weights to construct
diverse gating mechanisms, facilitating the formation of various gated
recurrent structures while avoiding the need to train additional components
from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA),
Liger restores the performance of the linearized gated recurrent models to
match that of the original LLMs. Additionally, we introduce Liger Attention, an
intra-layer hybrid attention mechanism, which significantly recovers 93\% of
the Transformer-based LLM at 0.02\% pre-training tokens during the
linearization process, achieving competitive results across multiple
benchmarks, as validated on models ranging from 1B to 8B parameters. Code is
available at https://github.com/OpenSparseLLMs/Linearization.Summary
AI-Generated Summary