ChatPaper.aiChatPaper

Vcc: Масштабирование трансформаторов до 128 тысяч токенов и более за счёт приоритизации важных токенов

Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens

May 7, 2023
Авторы: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng
cs.AI

Аннотация

Трансформерные модели являются основополагающими для обработки естественного языка (NLP) и компьютерного зрения. Несмотря на множество недавних работ, посвященных снижению квадратичной сложности таких моделей (как функции длины последовательности n), эффективная обработка сверхдлинных последовательностей (например, с более чем 16K токенов) остается сложной задачей. Приложения, такие как ответы на вопросы на основе целой книги или суммаризация научной статьи, работают неэффективно или вовсе невозможны. В данной статье мы предлагаем значительно снизить зависимость сложности трансформерной модели от n путем сжатия входных данных в представление, размер которого r не зависит от n на каждом слое. В частности, используя тот факт, что во многих задачах лишь небольшое подмножество специальных токенов (которые мы называем VIP-токенами) наиболее важно для итогового предсказания, мы предлагаем схему сжатия, ориентированную на VIP-токены (Vcc), которая выборочно сжимает входную последовательность на основе их влияния на аппроксимацию представления этих VIP-токенов. По сравнению с конкурентоспособными базовыми методами, предложенный алгоритм не только эффективен (обеспечивая более чем 3-кратное улучшение эффективности на длинах 4K и 16K), но также демонстрирует сопоставимую или лучшую производительность на большом количестве задач. Более того, мы показываем, что наш алгоритм может масштабироваться до 128K токенов (или более), при этом стабильно улучшая точность.
English
Transformer models are foundational to natural language processing (NLP) and computer vision. Despite various recent works devoted to reducing the quadratic cost of such models (as a function of the sequence length n), dealing with ultra long sequences efficiently (e.g., with more than 16K tokens) remains challenging. Applications such as answering questions based on an entire book or summarizing a scientific article are inefficient or infeasible. In this paper, we propose to significantly reduce the dependency of a Transformer model's complexity on n, by compressing the input into a representation whose size r is independent of n at each layer. Specifically, by exploiting the fact that in many tasks, only a small subset of special tokens (we call VIP-tokens) are most relevant to the final prediction, we propose a VIP-token centric compression (Vcc) scheme which selectively compresses the input sequence based on their impact on approximating the representation of these VIP-tokens. Compared with competitive baselines, the proposed algorithm not only is efficient (achieving more than 3times efficiency improvement compared to baselines on 4K and 16K lengths), but also achieves competitive or better performance on a large number of tasks. Further, we show that our algorithm can be scaled to 128K tokens (or more) while consistently offering accuracy improvement.
PDF11December 15, 2024