ChatPaper.aiChatPaper

Vcc: Escalando Transformers a 128K Tokens o Más mediante la Priorización de Tokens Importantes

Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens

May 7, 2023
Autores: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng
cs.AI

Resumen

Los modelos Transformer son fundamentales para el procesamiento del lenguaje natural (PLN) y la visión por computadora. A pesar de varios trabajos recientes dedicados a reducir el costo cuadrático de estos modelos (en función de la longitud de la secuencia n), manejar secuencias extremadamente largas de manera eficiente (por ejemplo, con más de 16K tokens) sigue siendo un desafío. Aplicaciones como responder preguntas basadas en un libro completo o resumir un artículo científico son ineficientes o inviables. En este artículo, proponemos reducir significativamente la dependencia de la complejidad de un modelo Transformer respecto a n, comprimiendo la entrada en una representación cuyo tamaño r es independiente de n en cada capa. Específicamente, al aprovechar el hecho de que en muchas tareas solo un pequeño subconjunto de tokens especiales (que llamamos VIP-tokens) son más relevantes para la predicción final, proponemos un esquema de compresión centrado en VIP-tokens (Vcc) que comprime selectivamente la secuencia de entrada según su impacto en la aproximación de la representación de estos VIP-tokens. En comparación con líneas base competitivas, el algoritmo propuesto no solo es eficiente (logrando una mejora de eficiencia de más de 3 veces en comparación con las líneas base en longitudes de 4K y 16K), sino que también alcanza un rendimiento competitivo o superior en una gran cantidad de tareas. Además, demostramos que nuestro algoritmo puede escalar a 128K tokens (o más) mientras ofrece consistentemente mejoras en la precisión.
English
Transformer models are foundational to natural language processing (NLP) and computer vision. Despite various recent works devoted to reducing the quadratic cost of such models (as a function of the sequence length n), dealing with ultra long sequences efficiently (e.g., with more than 16K tokens) remains challenging. Applications such as answering questions based on an entire book or summarizing a scientific article are inefficient or infeasible. In this paper, we propose to significantly reduce the dependency of a Transformer model's complexity on n, by compressing the input into a representation whose size r is independent of n at each layer. Specifically, by exploiting the fact that in many tasks, only a small subset of special tokens (we call VIP-tokens) are most relevant to the final prediction, we propose a VIP-token centric compression (Vcc) scheme which selectively compresses the input sequence based on their impact on approximating the representation of these VIP-tokens. Compared with competitive baselines, the proposed algorithm not only is efficient (achieving more than 3times efficiency improvement compared to baselines on 4K and 16K lengths), but also achieves competitive or better performance on a large number of tasks. Further, we show that our algorithm can be scaled to 128K tokens (or more) while consistently offering accuracy improvement.
PDF11December 15, 2024