ChatPaper.aiChatPaper

К следующему уровню посттренировочной квантизации гипермасштабных трансформаторов

Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers

February 14, 2024
Авторы: Junhan Kim, Kyungphil Park, Chungman Lee, Ho-young Kim, Joonyoung Kim, Yongkweon Jeon
cs.AI

Аннотация

С увеличением сложности генеративных моделей ИИ, посттренировочная квантизация (PTQ) стала перспективным решением для развертывания гипермасштабных моделей на устройствах с ограниченными ресурсами, таких как мобильные устройства и телевизоры. Однако существующие схемы PTQ требуют значительных временных и ресурсных затрат, что может стать узким местом в реальных ситуациях, где необходимы частые обновления моделей и настройка множества гиперпараметров. В качестве экономичной альтернативы были предложены одношаговые схемы PTQ. Тем не менее, их производительность несколько ограничена, поскольку они не учитывают межслойные зависимости внутри модуля внимания, что является важной особенностью архитектуры Transformer. В данной статье мы предлагаем новый алгоритм PTQ, который балансирует точность и эффективность. Основная идея предложенного алгоритма, названного aespa, заключается в выполнении квантизации послойно для повышения эффективности, при этом учитывая межслойные зависимости для сохранения точности вычисления внимания. Благодаря обширным экспериментам на различных языковых моделях и анализу сложности, мы демонстрируем, что aespa обеспечивает точную и эффективную квантизацию моделей Transformer.
English
With the increasing complexity of generative AI models, post-training quantization (PTQ) has emerged as a promising solution for deploying hyper-scale models on edge devices such as mobile devices and TVs. Existing PTQ schemes, however, consume considerable time and resources, which could be a bottleneck in real situations where frequent model updates and multiple hyper-parameter tunings are required. As a cost-effective alternative, one-shot PTQ schemes have been proposed. Still, the performance is somewhat limited because they cannot consider the inter-layer dependency within the attention module, which is a very important feature of Transformers. In this paper, we thus propose a novel PTQ algorithm that balances accuracy and efficiency. The key idea of the proposed algorithm called aespa is to perform quantization layer-wise for efficiency while considering cross-layer dependency to preserve the attention score. Through extensive experiments on various language models and complexity analysis, we demonstrate that aespa is accurate and efficient in quantizing Transformer models.

Summary

AI-Generated Summary

PDF61December 15, 2024