선형 복잡도 언어 모델의 스케일링 법칙
Scaling Laws for Linear Complexity Language Models
June 24, 2024
저자: Xuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong
cs.AI
초록
대규모 언어 모델에 대한 선형 복잡도 모델의 관심이 증가하고 있지만, 이들의 확장 능력은 여전히 불확실합니다. 본 연구에서는 선형 복잡도 언어 모델의 확장 법칙을 제시하여 이들의 확장성에 대한 기반을 마련합니다. 구체적으로, 우리는 세 가지 효율적인 선형 아키텍처의 확장 행동을 검토합니다. 여기에는 데이터 독립적 감쇠를 가진 선형 어텐션 모델인 TNL, 데이터 의존적 감쇠를 가진 선형 RNN인 HGRN2, 그리고 감쇠가 없는 선형 어텐션 모델인 cosFormer2가 포함됩니다. 또한 비교를 위해 소프트맥스 어텐션을 사용한 LLaMA를 기준 아키텍처로 포함했습니다. 이러한 모델들은 300B 토큰 코퍼스에서 70M에서 7B 파라미터까지의 여섯 가지 변형으로 훈련되었으며, 다양한 다운스트림 작업에서 총 1,376개의 중간 체크포인트로 평가되었습니다. 이러한 작업에는 검증 손실, 상식 추론, 정보 검색 및 생성이 포함됩니다. 연구 결과, 기존의 선형 복잡도 언어 모델은 기존의 트랜스포머 기반 모델과 유사한 확장 능력을 보이면서도 우수한 언어 능력과 지식 보유 능력을 보여주는 것으로 나타났습니다.
English
The interest in linear complexity models for large language models is on the
rise, although their scaling capacity remains uncertain. In this study, we
present the scaling laws for linear complexity language models to establish a
foundation for their scalability. Specifically, we examine the scaling
behaviors of three efficient linear architectures. These include TNL, a linear
attention model with data-independent decay; HGRN2, a linear RNN with
data-dependent decay; and cosFormer2, a linear attention model without decay.
We also include LLaMA as a baseline architecture for softmax attention for
comparison. These models were trained with six variants, ranging from 70M to 7B
parameters on a 300B-token corpus, and evaluated with a total of 1,376
intermediate checkpoints on various downstream tasks. These tasks include
validation loss, commonsense reasoning, and information retrieval and
generation. The study reveals that existing linear complexity language models
exhibit similar scaling capabilities as conventional transformer-based models
while also demonstrating superior linguistic proficiency and knowledge
retention.Summary
AI-Generated Summary