Lois d'échelle pour les modèles de langage à complexité linéaire

papers.abstract

L'intérêt pour les modèles à complexité linéaire dans le domaine des grands modèles de langage est en hausse, bien que leur capacité de mise à l'échelle reste incertaine. Dans cette étude, nous présentons les lois de mise à l'échelle pour les modèles de langage à complexité linéaire afin d'établir une base pour leur scalabilité. Plus précisément, nous examinons les comportements de mise à l'échelle de trois architectures linéaires efficaces. Celles-ci incluent TNL, un modèle d'attention linéaire avec décroissance indépendante des données ; HGRN2, un RNN linéaire avec décroissance dépendante des données ; et cosFormer2, un modèle d'attention linéaire sans décroissance. Nous incluons également LLaMA comme architecture de référence pour l'attention softmax à des fins de comparaison. Ces modèles ont été entraînés avec six variantes, allant de 70M à 7B de paramètres sur un corpus de 300B de tokens, et évalués avec un total de 1 376 points de contrôle intermédiaires sur diverses tâches en aval. Ces tâches incluent la perte de validation, le raisonnement de bon sens, ainsi que la recherche d'information et la génération. L'étude révèle que les modèles de langage à complexité linéaire existants présentent des capacités de mise à l'échelle similaires à celles des modèles conventionnels basés sur des transformateurs, tout en démontrant une compétence linguistique et une rétention de connaissances supérieures.

English

The interest in linear complexity models for large language models is on the rise, although their scaling capacity remains uncertain. In this study, we present the scaling laws for linear complexity language models to establish a foundation for their scalability. Specifically, we examine the scaling behaviors of three efficient linear architectures. These include TNL, a linear attention model with data-independent decay; HGRN2, a linear RNN with data-dependent decay; and cosFormer2, a linear attention model without decay. We also include LLaMA as a baseline architecture for softmax attention for comparison. These models were trained with six variants, ranging from 70M to 7B parameters on a 300B-token corpus, and evaluated with a total of 1,376 intermediate checkpoints on various downstream tasks. These tasks include validation loss, commonsense reasoning, and information retrieval and generation. The study reveals that existing linear complexity language models exhibit similar scaling capabilities as conventional transformer-based models while also demonstrating superior linguistic proficiency and knowledge retention.

Lois d'échelle pour les modèles de langage à complexité linéaire

Scaling Laws for Linear Complexity Language Models

papers.abstract

Support