Liger : Linéarisation des grands modèles de langage en structures récurrentes à portes
Liger: Linearizing Large Language Models to Gated Recurrent Structures
March 3, 2025
Auteurs: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng
cs.AI
Résumé
Les Transformers avec modélisation récurrente linéaire offrent un entraînement en temps linéaire et une inférence à mémoire constante. Malgré leur efficacité et leurs performances démontrées, le pré-entraînement de telles architectures non standard à partir de zéro reste coûteux et risqué. La linéarisation des grands modèles de langage (LLMs) transforme les modèles standard pré-entraînés en structures récurrentes linéaires, permettant un déploiement plus efficace. Cependant, les méthodes de linéarisation actuelles introduisent généralement des modules de cartographie de caractéristiques supplémentaires qui nécessitent un réglage fin approfondi et négligent les mécanismes de gating utilisés dans les modèles récurrents linéaires de pointe. Pour résoudre ces problèmes, cet article présente Liger, abréviation de Linearizing LLMs to gated recurrent structures. Liger est une approche novatrice pour convertir des LLMs pré-entraînés en modèles récurrents linéaires à gating sans ajouter de paramètres supplémentaires. Il réutilise les poids de la matrice clé pré-entraînée pour construire divers mécanismes de gating, facilitant la formation de différentes structures récurrentes à gating tout en évitant la nécessité d'entraîner des composants supplémentaires à partir de zéro. En utilisant un réglage fin léger avec l'Adaptation à Bas Rang (LoRA), Liger rétablit les performances des modèles récurrents linéaires à gating pour qu'elles correspondent à celles des LLMs originaux. De plus, nous introduisons Liger Attention, un mécanisme d'attention hybride intra-couche, qui récupère significativement 93\% du LLM basé sur Transformer avec 0.02\% des tokens de pré-entraînement pendant le processus de linéarisation, obtenant des résultats compétitifs sur plusieurs benchmarks, comme validé sur des modèles allant de 1B à 8B paramètres. Le code est disponible à l'adresse https://github.com/OpenSparseLLMs/Linearization.
English
Transformers with linear recurrent modeling offer linear-time training and
constant-memory inference. Despite their demonstrated efficiency and
performance, pretraining such non-standard architectures from scratch remains
costly and risky. The linearization of large language models (LLMs) transforms
pretrained standard models into linear recurrent structures, enabling more
efficient deployment. However, current linearization methods typically
introduce additional feature map modules that require extensive fine-tuning and
overlook the gating mechanisms used in state-of-the-art linear recurrent
models. To address these issues, this paper presents Liger, short for
Linearizing LLMs to gated recurrent structures. Liger is a novel approach for
converting pretrained LLMs into gated linear recurrent models without adding
extra parameters. It repurposes the pretrained key matrix weights to construct
diverse gating mechanisms, facilitating the formation of various gated
recurrent structures while avoiding the need to train additional components
from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA),
Liger restores the performance of the linearized gated recurrent models to
match that of the original LLMs. Additionally, we introduce Liger Attention, an
intra-layer hybrid attention mechanism, which significantly recovers 93\% of
the Transformer-based LLM at 0.02\% pre-training tokens during the
linearization process, achieving competitive results across multiple
benchmarks, as validated on models ranging from 1B to 8B parameters. Code is
available at https://github.com/OpenSparseLLMs/Linearization.Summary
AI-Generated Summary