LongNet: Scalabilità dei Transformer fino a 1.000.000.000 di Token
LongNet: Scaling Transformers to 1,000,000,000 Tokens
July 5, 2023
Autori: Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Furu Wei
cs.AI
Abstract
Il ridimensionamento della lunghezza delle sequenze è diventato una necessità critica nell'era dei grandi modelli linguistici. Tuttavia, i metodi esistenti lottano con la complessità computazionale o l'espressività del modello, limitando così la lunghezza massima delle sequenze. In questo lavoro, introduciamo LongNet, una variante del Transformer in grado di scalare la lunghezza delle sequenze fino a oltre 1 miliardo di token, senza sacrificare le prestazioni su sequenze più brevi. Nello specifico, proponiamo l'attenzione dilatata, che espande il campo di attenzione in modo esponenziale con l'aumentare della distanza. LongNet offre significativi vantaggi: 1) ha una complessità computazionale lineare e una dipendenza logaritmica tra i token; 2) può essere utilizzato come trainer distribuito per sequenze estremamente lunghe; 3) la sua attenzione dilatata è un sostituto diretto dell'attenzione standard, che può essere integrato senza soluzione di continuità con le ottimizzazioni esistenti basate su Transformer. I risultati degli esperimenti dimostrano che LongNet offre prestazioni solide sia nella modellazione di sequenze lunghe che in compiti linguistici generali. Il nostro lavoro apre nuove possibilità per la modellazione di sequenze molto lunghe, ad esempio trattando un intero corpus o persino l'intero Internet come una sequenza.
English
Scaling sequence length has become a critical demand in the era of large
language models. However, existing methods struggle with either computational
complexity or model expressivity, rendering the maximum sequence length
restricted. In this work, we introduce LongNet, a Transformer variant that can
scale sequence length to more than 1 billion tokens, without sacrificing the
performance on shorter sequences. Specifically, we propose dilated attention,
which expands the attentive field exponentially as the distance grows. LongNet
has significant advantages: 1) it has a linear computation complexity and a
logarithm dependency between tokens; 2) it can be served as a distributed
trainer for extremely long sequences; 3) its dilated attention is a drop-in
replacement for standard attention, which can be seamlessly integrated with the
existing Transformer-based optimization. Experiments results demonstrate that
LongNet yields strong performance on both long-sequence modeling and general
language tasks. Our work opens up new possibilities for modeling very long
sequences, e.g., treating a whole corpus or even the entire Internet as a
sequence.