ChatPaper.aiChatPaper

Schaalwetten voor Taalmodellen met Lineaire Complexiteit

Scaling Laws for Linear Complexity Language Models

June 24, 2024
Auteurs: Xuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong
cs.AI

Samenvatting

De interesse in lineaire complexiteitsmodellen voor grote taalmodelen neemt toe, hoewel hun schaalbaarheid nog onzeker is. In deze studie presenteren we de schaalwetten voor lineaire complexiteitsmodellen om een basis te leggen voor hun schaalbaarheid. Specifiek onderzoeken we de schaalgedragingen van drie efficiënte lineaire architecturen. Deze omvatten TNL, een lineair aandachtmodel met data-onafhankelijk verval; HGRN2, een lineair RNN met data-afhankelijk verval; en cosFormer2, een lineair aandachtmodel zonder verval. We nemen ook LLaMA op als een baseline-architectuur voor softmax-aandacht ter vergelijking. Deze modellen werden getraind met zes varianten, variërend van 70M tot 7B parameters op een corpus van 300B tokens, en geëvalueerd met in totaal 1.376 tussenliggende checkpoints op verschillende downstream taken. Deze taken omvatten validatieverlies, gezond verstand redeneren, en informatie retrieval en generatie. De studie onthult dat bestaande lineaire complexiteitsmodellen vergelijkbare schaalbaarheidsmogelijkheden vertonen als conventionele transformer-gebaseerde modellen, terwijl ze ook superieure taalkundige vaardigheid en kennisretentie demonstreren.
English
The interest in linear complexity models for large language models is on the rise, although their scaling capacity remains uncertain. In this study, we present the scaling laws for linear complexity language models to establish a foundation for their scalability. Specifically, we examine the scaling behaviors of three efficient linear architectures. These include TNL, a linear attention model with data-independent decay; HGRN2, a linear RNN with data-dependent decay; and cosFormer2, a linear attention model without decay. We also include LLaMA as a baseline architecture for softmax attention for comparison. These models were trained with six variants, ranging from 70M to 7B parameters on a 300B-token corpus, and evaluated with a total of 1,376 intermediate checkpoints on various downstream tasks. These tasks include validation loss, commonsense reasoning, and information retrieval and generation. The study reveals that existing linear complexity language models exhibit similar scaling capabilities as conventional transformer-based models while also demonstrating superior linguistic proficiency and knowledge retention.
PDF234February 8, 2026