ChatPaper.aiChatPaper

I&S-ViT: Инклюзивный и стабильный метод для расширения границ посттренировочной квантизации ViT

I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization

November 16, 2023
Авторы: Yunshan Zhong, Jiawei Hu, Mingbao Lin, Mengzhao Chen, Rongrong Ji
cs.AI

Аннотация

Несмотря на масштабируемую производительность трансформеров для обработки изображений (ViTs), высокие вычислительные затраты (как на этапе обучения, так и на этапе вывода) ограничивают их применение в промышленных задачах. Квантование после обучения (PTQ), которое настраивает ViTs с использованием небольшого набора данных и работает в формате с низкой разрядностью, эффективно решает проблему затрат, но, к сожалению, приводит к значительному снижению производительности в случаях с низкой разрядностью. В данной статье мы представляем I&S-ViT — новый метод, который регулирует PTQ ViTs в инклюзивной и стабильной манере. I&S-ViT сначала выявляет две проблемы в PTQ ViTs: (1) Неэффективность квантования при использовании распространенного log2-квантователя для активаций после Softmax; (2) Неровный и усиленный ландшафт потерь при крупнозернистой гранулярности квантования для активаций после LayerNorm. Затем I&S-ViT решает эти проблемы, вводя: (1) Новый shift-uniform-log2 квантователь (SULQ), который включает механизм сдвига с последующим равномерным квантованием для достижения как инклюзивного представления домена, так и точной аппроксимации распределения; (2) Трехэтапную стратегию плавной оптимизации (SOS), которая объединяет преимущества канального и послойного квантования для обеспечения стабильного обучения. Комплексные оценки на различных задачах обработки изображений подтверждают превосходство I&S-ViT над существующими методами PTQ для ViTs, особенно в сценариях с низкой разрядностью. Например, I&S-ViT повышает производительность 3-битного ViT-B на впечатляющие 50,68%.
English
Albeit the scalable performance of vision transformers (ViTs), the dense computational costs (training & inference) undermine their position in industrial applications. Post-training quantization (PTQ), tuning ViTs with a tiny dataset and running in a low-bit format, well addresses the cost issue but unluckily bears more performance drops in lower-bit cases. In this paper, we introduce I&S-ViT, a novel method that regulates the PTQ of ViTs in an inclusive and stable fashion. I&S-ViT first identifies two issues in the PTQ of ViTs: (1) Quantization inefficiency in the prevalent log2 quantizer for post-Softmax activations; (2) Rugged and magnified loss landscape in coarse-grained quantization granularity for post-LayerNorm activations. Then, I&S-ViT addresses these issues by introducing: (1) A novel shift-uniform-log2 quantizer (SULQ) that incorporates a shift mechanism followed by uniform quantization to achieve both an inclusive domain representation and accurate distribution approximation; (2) A three-stage smooth optimization strategy (SOS) that amalgamates the strengths of channel-wise and layer-wise quantization to enable stable learning. Comprehensive evaluations across diverse vision tasks validate I&S-ViT' superiority over existing PTQ of ViTs methods, particularly in low-bit scenarios. For instance, I&S-ViT elevates the performance of 3-bit ViT-B by an impressive 50.68%.
PDF100December 15, 2024