LongNet : Mise à l'échelle des Transformers pour 1 000 000 000 de tokens
LongNet: Scaling Transformers to 1,000,000,000 Tokens
July 5, 2023
Auteurs: Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Furu Wei
cs.AI
Résumé
L'augmentation de la longueur des séquences est devenue une exigence cruciale à l'ère des grands modèles de langage. Cependant, les méthodes existantes peinent à concilier complexité computationnelle et expressivité du modèle, limitant ainsi la longueur maximale des séquences. Dans ce travail, nous présentons LongNet, une variante du Transformer capable de gérer des séquences de plus d'un milliard de tokens sans sacrifier les performances sur des séquences plus courtes. Plus précisément, nous proposons l'attention dilatée, qui étend le champ d'attention de manière exponentielle avec la distance. LongNet présente des avantages significatifs : 1) il possède une complexité computationnelle linéaire et une dépendance logarithmique entre les tokens ; 2) il peut être utilisé comme entraîneur distribué pour des séquences extrêmement longues ; 3) son attention dilatée est un remplacement direct de l'attention standard, permettant une intégration transparente avec les optimisations existantes basées sur le Transformer. Les résultats expérimentaux montrent que LongNet offre de solides performances à la fois en modélisation de longues séquences et en tâches générales de traitement du langage. Notre travail ouvre de nouvelles possibilités pour modéliser des séquences très longues, par exemple en traitant un corpus entier ou même l'ensemble d'Internet comme une séquence.
English
Scaling sequence length has become a critical demand in the era of large
language models. However, existing methods struggle with either computational
complexity or model expressivity, rendering the maximum sequence length
restricted. In this work, we introduce LongNet, a Transformer variant that can
scale sequence length to more than 1 billion tokens, without sacrificing the
performance on shorter sequences. Specifically, we propose dilated attention,
which expands the attentive field exponentially as the distance grows. LongNet
has significant advantages: 1) it has a linear computation complexity and a
logarithm dependency between tokens; 2) it can be served as a distributed
trainer for extremely long sequences; 3) its dilated attention is a drop-in
replacement for standard attention, which can be seamlessly integrated with the
existing Transformer-based optimization. Experiments results demonstrate that
LongNet yields strong performance on both long-sequence modeling and general
language tasks. Our work opens up new possibilities for modeling very long
sequences, e.g., treating a whole corpus or even the entire Internet as a
sequence.