Vcc: Escalando Transformers para 128K Tokens ou Mais Priorizando Tokens Importantes
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
May 7, 2023
Autores: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng
cs.AI
Resumo
Os modelos Transformer são fundamentais para o processamento de linguagem natural (NLP) e a visão computacional. Apesar de vários trabalhos recentes dedicados a reduzir o custo quadrático desses modelos (em função do comprimento da sequência n), lidar com sequências ultra longas de forma eficiente (por exemplo, com mais de 16K tokens) continua sendo um desafio. Aplicações como responder a perguntas com base em um livro inteiro ou resumir um artigo científico são ineficientes ou inviáveis. Neste artigo, propomos reduzir significativamente a dependência da complexidade de um modelo Transformer em n, comprimindo a entrada em uma representação cujo tamanho r é independente de n em cada camada. Especificamente, ao explorar o fato de que, em muitas tarefas, apenas um pequeno subconjunto de tokens especiais (que chamamos de VIP-tokens) é mais relevante para a previsão final, propomos um esquema de compressão centrado em VIP-tokens (Vcc) que comprime seletivamente a sequência de entrada com base em seu impacto na aproximação da representação desses VIP-tokens. Em comparação com baselines competitivas, o algoritmo proposto não apenas é eficiente (alcançando uma melhoria de eficiência de mais de 3 vezes em relação às baselines em comprimentos de 4K e 16K), mas também alcança desempenho competitivo ou superior em um grande número de tarefas. Além disso, mostramos que nosso algoritmo pode ser escalado para 128K tokens (ou mais) enquanto oferece consistentemente melhoria de precisão.
English
Transformer models are foundational to natural language processing (NLP) and
computer vision. Despite various recent works devoted to reducing the quadratic
cost of such models (as a function of the sequence length n), dealing with
ultra long sequences efficiently (e.g., with more than 16K tokens) remains
challenging. Applications such as answering questions based on an entire book
or summarizing a scientific article are inefficient or infeasible. In this
paper, we propose to significantly reduce the dependency of a Transformer
model's complexity on n, by compressing the input into a representation whose
size r is independent of n at each layer. Specifically, by exploiting the
fact that in many tasks, only a small subset of special tokens (we call
VIP-tokens) are most relevant to the final prediction, we propose a VIP-token
centric compression (Vcc) scheme which selectively compresses the input
sequence based on their impact on approximating the representation of these
VIP-tokens. Compared with competitive baselines, the proposed algorithm not
only is efficient (achieving more than 3times efficiency improvement
compared to baselines on 4K and 16K lengths), but also achieves competitive or
better performance on a large number of tasks. Further, we show that our
algorithm can be scaled to 128K tokens (or more) while consistently offering
accuracy improvement.