Liger: Linealización de Modelos de Lenguaje a Gran Escala en Estructuras Recurrentes con Compuertas
Liger: Linearizing Large Language Models to Gated Recurrent Structures
March 3, 2025
Autores: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng
cs.AI
Resumen
Los Transformers con modelado recurrente lineal ofrecen entrenamiento en tiempo lineal e inferencia con memoria constante. A pesar de su eficiencia y rendimiento demostrados, el preentrenamiento de estas arquitecturas no estándar desde cero sigue siendo costoso y arriesgado. La linealización de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) transforma modelos preentrenados estándar en estructuras recurrentes lineales, permitiendo un despliegue más eficiente. Sin embargo, los métodos actuales de linealización suelen introducir módulos adicionales de mapeo de características que requieren un ajuste fino extenso y pasan por alto los mecanismos de compuerta utilizados en los modelos recurrentes lineales de última generación. Para abordar estos problemas, este artículo presenta Liger, abreviatura de Linealización de LLMs a estructuras recurrentes con compuertas. Liger es un enfoque novedoso para convertir LLMs preentrenados en modelos recurrentes lineales con compuertas sin agregar parámetros adicionales. Reutiliza los pesos de la matriz clave preentrenada para construir diversos mecanismos de compuerta, facilitando la formación de varias estructuras recurrentes con compuertas mientras evita la necesidad de entrenar componentes adicionales desde cero. Utilizando un ajuste fino ligero con Adaptación de Bajo Rango (LoRA, por sus siglas en inglés), Liger restaura el rendimiento de los modelos recurrentes lineales con compuertas para igualar el de los LLMs originales. Además, introducimos Liger Attention, un mecanismo de atención híbrida intra-capa, que recupera significativamente el 93\% del LLM basado en Transformer con un 0.02\% de tokens de preentrenamiento durante el proceso de linealización, logrando resultados competitivos en múltiples benchmarks, como se ha validado en modelos que van desde 1B hasta 8B parámetros. El código está disponible en https://github.com/OpenSparseLLMs/Linearization.
English
Transformers with linear recurrent modeling offer linear-time training and
constant-memory inference. Despite their demonstrated efficiency and
performance, pretraining such non-standard architectures from scratch remains
costly and risky. The linearization of large language models (LLMs) transforms
pretrained standard models into linear recurrent structures, enabling more
efficient deployment. However, current linearization methods typically
introduce additional feature map modules that require extensive fine-tuning and
overlook the gating mechanisms used in state-of-the-art linear recurrent
models. To address these issues, this paper presents Liger, short for
Linearizing LLMs to gated recurrent structures. Liger is a novel approach for
converting pretrained LLMs into gated linear recurrent models without adding
extra parameters. It repurposes the pretrained key matrix weights to construct
diverse gating mechanisms, facilitating the formation of various gated
recurrent structures while avoiding the need to train additional components
from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA),
Liger restores the performance of the linearized gated recurrent models to
match that of the original LLMs. Additionally, we introduce Liger Attention, an
intra-layer hybrid attention mechanism, which significantly recovers 93\% of
the Transformer-based LLM at 0.02\% pre-training tokens during the
linearization process, achieving competitive results across multiple
benchmarks, as validated on models ranging from 1B to 8B parameters. Code is
available at https://github.com/OpenSparseLLMs/Linearization.Summary
AI-Generated Summary