ChatPaper.aiChatPaper

I&S-ViT: Um Método Inclusivo e Estável para Expandir os Limites da Quantização Pós-Treinamento de ViTs

I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization

November 16, 2023
Autores: Yunshan Zhong, Jiawei Hu, Mingbao Lin, Mengzhao Chen, Rongrong Ji
cs.AI

Resumo

Apesar do desempenho escalável dos vision transformers (ViTs), os custos computacionais densos (treinamento e inferência) comprometem sua posição em aplicações industriais. A quantização pós-treinamento (PTQ), que ajusta os ViTs com um pequeno conjunto de dados e os executa em um formato de baixa precisão, resolve bem o problema de custo, mas infelizmente resulta em quedas de desempenho mais significativas em casos de baixa precisão. Neste artigo, apresentamos o I&S-ViT, um método novo que regula a PTQ dos ViTs de forma inclusiva e estável. O I&S-ViT primeiro identifica dois problemas na PTQ dos ViTs: (1) Ineficiência de quantização no quantizador log2 prevalente para ativações pós-Softmax; (2) Paisagem de perda acidentada e amplificada na granularidade de quantização de grão grosso para ativações pós-LayerNorm. Em seguida, o I&S-ViT aborda esses problemas introduzindo: (1) Um novo quantizador shift-uniform-log2 (SULQ) que incorpora um mecanismo de deslocamento seguido de quantização uniforme para alcançar tanto uma representação de domínio inclusiva quanto uma aproximação precisa da distribuição; (2) Uma estratégia de otimização suave em três estágios (SOS) que combina as vantagens da quantização por canal e por camada para permitir um aprendizado estável. Avaliações abrangentes em diversas tarefas de visão validam a superioridade do I&S-ViT sobre os métodos existentes de PTQ para ViTs, particularmente em cenários de baixa precisão. Por exemplo, o I&S-ViT eleva o desempenho do ViT-B de 3 bits em impressionantes 50,68%.
English
Albeit the scalable performance of vision transformers (ViTs), the dense computational costs (training & inference) undermine their position in industrial applications. Post-training quantization (PTQ), tuning ViTs with a tiny dataset and running in a low-bit format, well addresses the cost issue but unluckily bears more performance drops in lower-bit cases. In this paper, we introduce I&S-ViT, a novel method that regulates the PTQ of ViTs in an inclusive and stable fashion. I&S-ViT first identifies two issues in the PTQ of ViTs: (1) Quantization inefficiency in the prevalent log2 quantizer for post-Softmax activations; (2) Rugged and magnified loss landscape in coarse-grained quantization granularity for post-LayerNorm activations. Then, I&S-ViT addresses these issues by introducing: (1) A novel shift-uniform-log2 quantizer (SULQ) that incorporates a shift mechanism followed by uniform quantization to achieve both an inclusive domain representation and accurate distribution approximation; (2) A three-stage smooth optimization strategy (SOS) that amalgamates the strengths of channel-wise and layer-wise quantization to enable stable learning. Comprehensive evaluations across diverse vision tasks validate I&S-ViT' superiority over existing PTQ of ViTs methods, particularly in low-bit scenarios. For instance, I&S-ViT elevates the performance of 3-bit ViT-B by an impressive 50.68%.
PDF100December 15, 2024