Vcc: Transformers schalen naar 128K tokens of meer door belangrijke tokens te prioriteren
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
May 7, 2023
Auteurs: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng
cs.AI
Samenvatting
Transformermodellen vormen de basis voor natuurlijke taalverwerking (NLP) en computervisie. Ondanks verschillende recente onderzoeken die gericht zijn op het verminderen van de kwadratische kosten van dergelijke modellen (als functie van de sequentielengte n), blijft het efficiënt omgaan met extreem lange sequenties (bijvoorbeeld met meer dan 16K tokens) een uitdaging. Toepassingen zoals het beantwoorden van vragen op basis van een heel boek of het samenvatten van een wetenschappelijk artikel zijn inefficiënt of onhaalbaar. In dit artikel stellen we voor om de afhankelijkheid van de complexiteit van een Transformermodel op n aanzienlijk te verminderen, door de invoer in elke laag te comprimeren tot een representatie waarvan de grootte r onafhankelijk is van n. Specifiek maken we gebruik van het feit dat bij veel taken slechts een kleine subset van speciale tokens (die we VIP-tokens noemen) het meest relevant is voor de uiteindelijke voorspelling. We stellen een VIP-token-gerichte compressie (Vcc) methode voor, die de invoersequentie selectief comprimeert op basis van hun impact op het benaderen van de representatie van deze VIP-tokens. Vergeleken met concurrerende baselines is het voorgestelde algoritme niet alleen efficiënt (het bereikt een efficiëntieverbetering van meer dan 3 keer vergeleken met baselines op 4K en 16K lengtes), maar behaalt het ook concurrerende of betere prestaties op een groot aantal taken. Bovendien laten we zien dat ons algoritme kan worden opgeschaald naar 128K tokens (of meer) terwijl het consistent nauwkeurigheidsverbetering biedt.
English
Transformer models are foundational to natural language processing (NLP) and
computer vision. Despite various recent works devoted to reducing the quadratic
cost of such models (as a function of the sequence length n), dealing with
ultra long sequences efficiently (e.g., with more than 16K tokens) remains
challenging. Applications such as answering questions based on an entire book
or summarizing a scientific article are inefficient or infeasible. In this
paper, we propose to significantly reduce the dependency of a Transformer
model's complexity on n, by compressing the input into a representation whose
size r is independent of n at each layer. Specifically, by exploiting the
fact that in many tasks, only a small subset of special tokens (we call
VIP-tokens) are most relevant to the final prediction, we propose a VIP-token
centric compression (Vcc) scheme which selectively compresses the input
sequence based on their impact on approximating the representation of these
VIP-tokens. Compared with competitive baselines, the proposed algorithm not
only is efficient (achieving more than 3times efficiency improvement
compared to baselines on 4K and 16K lengths), but also achieves competitive or
better performance on a large number of tasks. Further, we show that our
algorithm can be scaled to 128K tokens (or more) while consistently offering
accuracy improvement.