Lois d'échelle pour les modèles de langage à complexité linéaire
Scaling Laws for Linear Complexity Language Models
June 24, 2024
Auteurs: Xuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong
cs.AI
Résumé
L'intérêt pour les modèles à complexité linéaire dans le domaine des grands modèles de langage est en hausse, bien que leur capacité de mise à l'échelle reste incertaine. Dans cette étude, nous présentons les lois de mise à l'échelle pour les modèles de langage à complexité linéaire afin d'établir une base pour leur scalabilité. Plus précisément, nous examinons les comportements de mise à l'échelle de trois architectures linéaires efficaces. Celles-ci incluent TNL, un modèle d'attention linéaire avec décroissance indépendante des données ; HGRN2, un RNN linéaire avec décroissance dépendante des données ; et cosFormer2, un modèle d'attention linéaire sans décroissance. Nous incluons également LLaMA comme architecture de référence pour l'attention softmax à des fins de comparaison. Ces modèles ont été entraînés avec six variantes, allant de 70M à 7B de paramètres sur un corpus de 300B de tokens, et évalués avec un total de 1 376 points de contrôle intermédiaires sur diverses tâches en aval. Ces tâches incluent la perte de validation, le raisonnement de bon sens, ainsi que la recherche d'information et la génération. L'étude révèle que les modèles de langage à complexité linéaire existants présentent des capacités de mise à l'échelle similaires à celles des modèles conventionnels basés sur des transformateurs, tout en démontrant une compétence linguistique et une rétention de connaissances supérieures.
English
The interest in linear complexity models for large language models is on the
rise, although their scaling capacity remains uncertain. In this study, we
present the scaling laws for linear complexity language models to establish a
foundation for their scalability. Specifically, we examine the scaling
behaviors of three efficient linear architectures. These include TNL, a linear
attention model with data-independent decay; HGRN2, a linear RNN with
data-dependent decay; and cosFormer2, a linear attention model without decay.
We also include LLaMA as a baseline architecture for softmax attention for
comparison. These models were trained with six variants, ranging from 70M to 7B
parameters on a 300B-token corpus, and evaluated with a total of 1,376
intermediate checkpoints on various downstream tasks. These tasks include
validation loss, commonsense reasoning, and information retrieval and
generation. The study reveals that existing linear complexity language models
exhibit similar scaling capabilities as conventional transformer-based models
while also demonstrating superior linguistic proficiency and knowledge
retention.Summary
AI-Generated Summary