Vcc: Skalierung von Transformern auf 128K Token oder mehr durch Priorisierung wichtiger Token
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
May 7, 2023
Autoren: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng
cs.AI
Zusammenfassung
Transformer-Modelle sind grundlegend für die Verarbeitung natürlicher Sprache (NLP) und die Computer Vision. Trotz verschiedener aktueller Arbeiten, die darauf abzielen, die quadratischen Kosten solcher Modelle (als Funktion der Sequenzlänge n) zu reduzieren, bleibt der effiziente Umgang mit extrem langen Sequenzen (z. B. mit mehr als 16.000 Tokens) eine Herausforderung. Anwendungen wie das Beantworten von Fragen auf Basis eines gesamten Buches oder das Zusammenfassen eines wissenschaftlichen Artikels sind ineffizient oder nicht durchführbar. In diesem Artikel schlagen wir vor, die Abhängigkeit der Komplexität eines Transformer-Modells von n erheblich zu reduzieren, indem die Eingabe in eine Repräsentation komprimiert wird, deren Größe r in jeder Schicht unabhängig von n ist. Insbesondere nutzen wir die Tatsache, dass bei vielen Aufgaben nur eine kleine Teilmenge spezieller Tokens (die wir VIP-Tokens nennen) für die endgültige Vorhersage am relevantesten ist. Wir schlagen ein VIP-Token-zentriertes Kompressionsschema (Vcc) vor, das die Eingabesequenz selektiv basierend auf deren Einfluss auf die Annäherung der Repräsentation dieser VIP-Tokens komprimiert. Im Vergleich zu konkurrenzfähigen Baselines ist der vorgeschlagene Algorithmus nicht nur effizient (er erreicht eine mehr als dreifache Effizienzsteigerung gegenüber den Baselines bei 4K und 16K Längen), sondern erzielt auch konkurrenzfähige oder bessere Leistungen bei einer Vielzahl von Aufgaben. Darüber hinaus zeigen wir, dass unser Algorithmus auf 128K Tokens (oder mehr) skaliert werden kann, während er kontinuierlich eine Genauigkeitsverbesserung bietet.
English
Transformer models are foundational to natural language processing (NLP) and
computer vision. Despite various recent works devoted to reducing the quadratic
cost of such models (as a function of the sequence length n), dealing with
ultra long sequences efficiently (e.g., with more than 16K tokens) remains
challenging. Applications such as answering questions based on an entire book
or summarizing a scientific article are inefficient or infeasible. In this
paper, we propose to significantly reduce the dependency of a Transformer
model's complexity on n, by compressing the input into a representation whose
size r is independent of n at each layer. Specifically, by exploiting the
fact that in many tasks, only a small subset of special tokens (we call
VIP-tokens) are most relevant to the final prediction, we propose a VIP-token
centric compression (Vcc) scheme which selectively compresses the input
sequence based on their impact on approximating the representation of these
VIP-tokens. Compared with competitive baselines, the proposed algorithm not
only is efficient (achieving more than 3times efficiency improvement
compared to baselines on 4K and 16K lengths), but also achieves competitive or
better performance on a large number of tasks. Further, we show that our
algorithm can be scaled to 128K tokens (or more) while consistently offering
accuracy improvement.