Vcc: Scalare i Transformer a 128K Token o Più Prioritizzando i Token Importanti
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
May 7, 2023
Autori: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng
cs.AI
Abstract
I modelli Transformer sono fondamentali per l'elaborazione del linguaggio naturale (NLP) e la visione artificiale. Nonostante i numerosi lavori recenti dedicati a ridurre il costo quadratico di tali modelli (in funzione della lunghezza della sequenza n), gestire sequenze ultra lunghe in modo efficiente (ad esempio, con più di 16K token) rimane una sfida. Applicazioni come rispondere a domande basate su un intero libro o riassumere un articolo scientifico sono inefficienti o impraticabili. In questo articolo, proponiamo di ridurre significativamente la dipendenza della complessità di un modello Transformer da n, comprimendo l'input in una rappresentazione la cui dimensione r è indipendente da n a ogni livello. Nello specifico, sfruttando il fatto che in molti compiti solo un piccolo sottoinsieme di token speciali (che chiamiamo VIP-token) è più rilevante per la previsione finale, proponiamo uno schema di compressione centrato sui VIP-token (Vcc) che comprime selettivamente la sequenza di input in base al loro impatto nell'approssimare la rappresentazione di questi VIP-token. Rispetto ai baseline competitivi, l'algoritmo proposto non solo è efficiente (raggiungendo un miglioramento di efficienza superiore a 3 volte rispetto ai baseline su lunghezze di 4K e 16K), ma ottiene anche prestazioni competitive o migliori su un gran numero di compiti. Inoltre, dimostriamo che il nostro algoritmo può essere scalato a 128K token (o più) offrendo costantemente un miglioramento dell'accuratezza.
English
Transformer models are foundational to natural language processing (NLP) and
computer vision. Despite various recent works devoted to reducing the quadratic
cost of such models (as a function of the sequence length n), dealing with
ultra long sequences efficiently (e.g., with more than 16K tokens) remains
challenging. Applications such as answering questions based on an entire book
or summarizing a scientific article are inefficient or infeasible. In this
paper, we propose to significantly reduce the dependency of a Transformer
model's complexity on n, by compressing the input into a representation whose
size r is independent of n at each layer. Specifically, by exploiting the
fact that in many tasks, only a small subset of special tokens (we call
VIP-tokens) are most relevant to the final prediction, we propose a VIP-token
centric compression (Vcc) scheme which selectively compresses the input
sequence based on their impact on approximating the representation of these
VIP-tokens. Compared with competitive baselines, the proposed algorithm not
only is efficient (achieving more than 3times efficiency improvement
compared to baselines on 4K and 16K lengths), but also achieves competitive or
better performance on a large number of tasks. Further, we show that our
algorithm can be scaled to 128K tokens (or more) while consistently offering
accuracy improvement.