Liger: Linearisierung großer Sprachmodelle zu gated-rekurrenten Strukturen
Liger: Linearizing Large Language Models to Gated Recurrent Structures
March 3, 2025
Autoren: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng
cs.AI
Zusammenfassung
Transformer mit linearer rekurrenter Modellierung bieten Training in linearer Zeit und Inferenz mit konstantem Speicherbedarf. Trotz ihrer nachgewiesenen Effizienz und Leistung bleibt das Pretraining solcher nicht-standardmäßiger Architekturen von Grund auf kostspielig und risikoreich. Die Linearisierung großer Sprachmodelle (LLMs) transformiert vortrainierte Standardmodelle in lineare rekurrente Strukturen, was eine effizientere Bereitstellung ermöglicht. Allerdings führen aktuelle Linearisierungsmethoden typischerweise zusätzliche Feature-Map-Module ein, die umfangreiche Feinabstimmung erfordern und die Gating-Mechanismen, die in modernsten linearen rekurrenten Modellen verwendet werden, übersehen. Um diese Probleme zu lösen, stellt dieses Paper Liger vor, kurz für Linearizing LLMs to gated recurrent structures. Liger ist ein neuartiger Ansatz zur Umwandlung vortrainierter LLMs in gated lineare rekurrente Modelle, ohne zusätzliche Parameter hinzuzufügen. Es nutzt die vortrainierten Gewichte der Schlüsselmatrix, um diverse Gating-Mechanismen zu konstruieren, was die Bildung verschiedener gated rekurrenter Strukturen erleichtert und gleichzeitig die Notwendigkeit vermeidet, zusätzliche Komponenten von Grund auf zu trainieren. Durch leichte Feinabstimmung mit Low-Rank Adaptation (LoRA) stellt Liger die Leistung der linearisierten gated rekurrenten Modelle auf das Niveau der ursprünglichen LLMs wieder her. Zusätzlich führen wir Liger Attention ein, einen intra-schichtigen hybriden Aufmerksamkeitsmechanismus, der während des Linearisierungsprozesses 93 % des Transformer-basierten LLMs bei 0,02 % der Pretraining-Token signifikant wiederherstellt und wettbewerbsfähige Ergebnisse über mehrere Benchmarks hinweg erzielt, wie an Modellen mit 1B bis 8B Parametern validiert wurde. Der Code ist verfügbar unter https://github.com/OpenSparseLLMs/Linearization.
English
Transformers with linear recurrent modeling offer linear-time training and
constant-memory inference. Despite their demonstrated efficiency and
performance, pretraining such non-standard architectures from scratch remains
costly and risky. The linearization of large language models (LLMs) transforms
pretrained standard models into linear recurrent structures, enabling more
efficient deployment. However, current linearization methods typically
introduce additional feature map modules that require extensive fine-tuning and
overlook the gating mechanisms used in state-of-the-art linear recurrent
models. To address these issues, this paper presents Liger, short for
Linearizing LLMs to gated recurrent structures. Liger is a novel approach for
converting pretrained LLMs into gated linear recurrent models without adding
extra parameters. It repurposes the pretrained key matrix weights to construct
diverse gating mechanisms, facilitating the formation of various gated
recurrent structures while avoiding the need to train additional components
from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA),
Liger restores the performance of the linearized gated recurrent models to
match that of the original LLMs. Additionally, we introduce Liger Attention, an
intra-layer hybrid attention mechanism, which significantly recovers 93\% of
the Transformer-based LLM at 0.02\% pre-training tokens during the
linearization process, achieving competitive results across multiple
benchmarks, as validated on models ranging from 1B to 8B parameters. Code is
available at https://github.com/OpenSparseLLMs/Linearization.Summary
AI-Generated Summary