Vcc: Escalando Transformers para 128K Tokens ou Mais Priorizando Tokens Importantes

Resumo

Os modelos Transformer são fundamentais para o processamento de linguagem natural (NLP) e a visão computacional. Apesar de vários trabalhos recentes dedicados a reduzir o custo quadrático desses modelos (em função do comprimento da sequência n), lidar com sequências ultra longas de forma eficiente (por exemplo, com mais de 16K tokens) continua sendo um desafio. Aplicações como responder a perguntas com base em um livro inteiro ou resumir um artigo científico são ineficientes ou inviáveis. Neste artigo, propomos reduzir significativamente a dependência da complexidade de um modelo Transformer em n, comprimindo a entrada em uma representação cujo tamanho r é independente de n em cada camada. Especificamente, ao explorar o fato de que, em muitas tarefas, apenas um pequeno subconjunto de tokens especiais (que chamamos de VIP-tokens) é mais relevante para a previsão final, propomos um esquema de compressão centrado em VIP-tokens (Vcc) que comprime seletivamente a sequência de entrada com base em seu impacto na aproximação da representação desses VIP-tokens. Em comparação com baselines competitivas, o algoritmo proposto não apenas é eficiente (alcançando uma melhoria de eficiência de mais de 3 vezes em relação às baselines em comprimentos de 4K e 16K), mas também alcança desempenho competitivo ou superior em um grande número de tarefas. Além disso, mostramos que nosso algoritmo pode ser escalado para 128K tokens (ou mais) enquanto oferece consistentemente melhoria de precisão.

English

Transformer models are foundational to natural language processing (NLP) and computer vision. Despite various recent works devoted to reducing the quadratic cost of such models (as a function of the sequence length n), dealing with ultra long sequences efficiently (e.g., with more than 16K tokens) remains challenging. Applications such as answering questions based on an entire book or summarizing a scientific article are inefficient or infeasible. In this paper, we propose to significantly reduce the dependency of a Transformer model's complexity on n, by compressing the input into a representation whose size r is independent of n at each layer. Specifically, by exploiting the fact that in many tasks, only a small subset of special tokens (we call VIP-tokens) are most relevant to the final prediction, we propose a VIP-token centric compression (Vcc) scheme which selectively compresses the input sequence based on their impact on approximating the representation of these VIP-tokens. Compared with competitive baselines, the proposed algorithm not only is efficient (achieving more than 3times efficiency improvement compared to baselines on 4K and 16K lengths), but also achieves competitive or better performance on a large number of tasks. Further, we show that our algorithm can be scaled to 128K tokens (or more) while consistently offering accuracy improvement.

Vcc: Escalando Transformers para 128K Tokens ou Mais Priorizando Tokens Importantes

Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens

Resumo

Support