LongNet: Scalabilità dei Transformer fino a 1.000.000.000 di Token

Abstract

Il ridimensionamento della lunghezza delle sequenze è diventato una necessità critica nell'era dei grandi modelli linguistici. Tuttavia, i metodi esistenti lottano con la complessità computazionale o l'espressività del modello, limitando così la lunghezza massima delle sequenze. In questo lavoro, introduciamo LongNet, una variante del Transformer in grado di scalare la lunghezza delle sequenze fino a oltre 1 miliardo di token, senza sacrificare le prestazioni su sequenze più brevi. Nello specifico, proponiamo l'attenzione dilatata, che espande il campo di attenzione in modo esponenziale con l'aumentare della distanza. LongNet offre significativi vantaggi: 1) ha una complessità computazionale lineare e una dipendenza logaritmica tra i token; 2) può essere utilizzato come trainer distribuito per sequenze estremamente lunghe; 3) la sua attenzione dilatata è un sostituto diretto dell'attenzione standard, che può essere integrato senza soluzione di continuità con le ottimizzazioni esistenti basate su Transformer. I risultati degli esperimenti dimostrano che LongNet offre prestazioni solide sia nella modellazione di sequenze lunghe che in compiti linguistici generali. Il nostro lavoro apre nuove possibilità per la modellazione di sequenze molto lunghe, ad esempio trattando un intero corpus o persino l'intero Internet come una sequenza.

English

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence length restricted. In this work, we introduce LongNet, a Transformer variant that can scale sequence length to more than 1 billion tokens, without sacrificing the performance on shorter sequences. Specifically, we propose dilated attention, which expands the attentive field exponentially as the distance grows. LongNet has significant advantages: 1) it has a linear computation complexity and a logarithm dependency between tokens; 2) it can be served as a distributed trainer for extremely long sequences; 3) its dilated attention is a drop-in replacement for standard attention, which can be seamlessly integrated with the existing Transformer-based optimization. Experiments results demonstrate that LongNet yields strong performance on both long-sequence modeling and general language tasks. Our work opens up new possibilities for modeling very long sequences, e.g., treating a whole corpus or even the entire Internet as a sequence.

LongNet: Scalabilità dei Transformer fino a 1.000.000.000 di Token

LongNet: Scaling Transformers to 1,000,000,000 Tokens

Abstract

Support