Vcc : Mise à l'échelle des Transformers pour 128 000 tokens ou plus en priorisant les tokens importants
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
May 7, 2023
Auteurs: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng
cs.AI
Résumé
Les modèles Transformer sont fondamentaux pour le traitement du langage naturel (NLP) et la vision par ordinateur. Malgré divers travaux récents visant à réduire le coût quadratique de ces modèles (en fonction de la longueur de séquence n), la gestion efficace de séquences ultra-longues (par exemple, avec plus de 16 000 tokens) reste un défi. Des applications telles que répondre à des questions basées sur un livre entier ou résumer un article scientifique sont inefficaces ou irréalisables. Dans cet article, nous proposons de réduire significativement la dépendance de la complexité d'un modèle Transformer à n, en compressant l'entrée en une représentation dont la taille r est indépendante de n à chaque couche. Plus précisément, en exploitant le fait que dans de nombreuses tâches, seul un petit sous-ensemble de tokens spéciaux (que nous appelons VIP-tokens) est le plus pertinent pour la prédiction finale, nous proposons un schéma de compression centré sur les VIP-tokens (Vcc) qui compresse sélectivement la séquence d'entrée en fonction de leur impact sur l'approximation de la représentation de ces VIP-tokens. Par rapport aux bases de référence concurrentes, l'algorithme proposé est non seulement efficace (obtenant une amélioration de plus de 3 fois en termes d'efficacité par rapport aux bases de référence pour des longueurs de 4K et 16K), mais il atteint également des performances compétitives ou supérieures sur un grand nombre de tâches. De plus, nous montrons que notre algorithme peut être mis à l'échelle pour 128K tokens (ou plus) tout en offrant une amélioration constante de la précision.
English
Transformer models are foundational to natural language processing (NLP) and
computer vision. Despite various recent works devoted to reducing the quadratic
cost of such models (as a function of the sequence length n), dealing with
ultra long sequences efficiently (e.g., with more than 16K tokens) remains
challenging. Applications such as answering questions based on an entire book
or summarizing a scientific article are inefficient or infeasible. In this
paper, we propose to significantly reduce the dependency of a Transformer
model's complexity on n, by compressing the input into a representation whose
size r is independent of n at each layer. Specifically, by exploiting the
fact that in many tasks, only a small subset of special tokens (we call
VIP-tokens) are most relevant to the final prediction, we propose a VIP-token
centric compression (Vcc) scheme which selectively compresses the input
sequence based on their impact on approximating the representation of these
VIP-tokens. Compared with competitive baselines, the proposed algorithm not
only is efficient (achieving more than 3times efficiency improvement
compared to baselines on 4K and 16K lengths), but also achieves competitive or
better performance on a large number of tasks. Further, we show that our
algorithm can be scaled to 128K tokens (or more) while consistently offering
accuracy improvement.