LongNet: Transformers schalen naar 1.000.000.000 tokens

Samenvatting

Het schalen van sequentielengte is een kritieke behoefte geworden in het tijdperk van grote taalmodelen. Bestaande methoden kampen echter met ofwel computationele complexiteit ofwel modeluitdrukkingskracht, waardoor de maximale sequentielengte beperkt blijft. In dit werk introduceren we LongNet, een Transformer-variant die de sequentielengte kan schalen tot meer dan 1 miljard tokens, zonder in te leveren op prestaties bij kortere sequenties. Specifiek stellen we gedilateerde aandacht voor, die het aandachtveld exponentieel uitbreidt naarmate de afstand groeit. LongNet heeft aanzienlijke voordelen: 1) het heeft een lineaire computationele complexiteit en een logaritmische afhankelijkheid tussen tokens; 2) het kan dienen als een gedistribueerde trainer voor extreem lange sequenties; 3) de gedilateerde aandacht is een directe vervanging voor standaard aandacht, die naadloos kan worden geïntegreerd met de bestaande Transformer-gebaseerde optimalisatie. Experimentele resultaten tonen aan dat LongNet sterke prestaties levert bij zowel lange-sequentiemodellering als algemene taaltaken. Ons werk opent nieuwe mogelijkheden voor het modelleren van zeer lange sequenties, zoals het behandelen van een volledig corpus of zelfs het hele internet als een sequentie.

English

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence length restricted. In this work, we introduce LongNet, a Transformer variant that can scale sequence length to more than 1 billion tokens, without sacrificing the performance on shorter sequences. Specifically, we propose dilated attention, which expands the attentive field exponentially as the distance grows. LongNet has significant advantages: 1) it has a linear computation complexity and a logarithm dependency between tokens; 2) it can be served as a distributed trainer for extremely long sequences; 3) its dilated attention is a drop-in replacement for standard attention, which can be seamlessly integrated with the existing Transformer-based optimization. Experiments results demonstrate that LongNet yields strong performance on both long-sequence modeling and general language tasks. Our work opens up new possibilities for modeling very long sequences, e.g., treating a whole corpus or even the entire Internet as a sequence.

LongNet: Transformers schalen naar 1.000.000.000 tokens

LongNet: Scaling Transformers to 1,000,000,000 Tokens

Samenvatting

Support