I&S-ViT : Une méthode inclusive et stable pour repousser les limites de la quantification post-entraînement des ViT
I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization
November 16, 2023
Auteurs: Yunshan Zhong, Jiawei Hu, Mingbao Lin, Mengzhao Chen, Rongrong Ji
cs.AI
Résumé
Bien que les transformeurs de vision (ViTs) offrent des performances évolutives, leurs coûts de calcul élevés (entraînement et inférence) compromettent leur position dans les applications industrielles. La quantification post-entraînement (PTQ), qui ajuste les ViTs avec un petit ensemble de données et les exécute dans un format à faible précision, résout bien le problème de coût mais entraîne malheureusement des baisses de performance plus importantes dans les cas de faible précision. Dans cet article, nous présentons I&S-ViT, une méthode novatrice qui régule la PTQ des ViTs de manière inclusive et stable. I&S-ViT identifie d'abord deux problèmes dans la PTQ des ViTs : (1) L'inefficacité de la quantification dans le quantificateur log2 couramment utilisé pour les activations post-Softmax ; (2) Un paysage de perte accidenté et amplifié dans la granularité de quantification grossière pour les activations post-LayerNorm. Ensuite, I&S-ViT résout ces problèmes en introduisant : (1) Un nouveau quantificateur shift-uniform-log2 (SULQ) qui intègre un mécanisme de décalage suivi d'une quantification uniforme pour obtenir à la fois une représentation inclusive du domaine et une approximation précise de la distribution ; (2) Une stratégie d'optimisation lisse en trois étapes (SOS) qui combine les avantages de la quantification par canal et par couche pour permettre un apprentissage stable. Des évaluations approfondies sur diverses tâches de vision confirment la supériorité d'I&S-ViT par rapport aux méthodes existantes de PTQ pour les ViTs, en particulier dans les scénarios de faible précision. Par exemple, I&S-ViT améliore les performances du ViT-B en 3 bits de manière impressionnante, avec une augmentation de 50,68 %.
English
Albeit the scalable performance of vision transformers (ViTs), the dense
computational costs (training & inference) undermine their position in
industrial applications. Post-training quantization (PTQ), tuning ViTs with a
tiny dataset and running in a low-bit format, well addresses the cost issue but
unluckily bears more performance drops in lower-bit cases. In this paper, we
introduce I&S-ViT, a novel method that regulates the PTQ of ViTs in an
inclusive and stable fashion. I&S-ViT first identifies two issues in the PTQ of
ViTs: (1) Quantization inefficiency in the prevalent log2 quantizer for
post-Softmax activations; (2) Rugged and magnified loss landscape in
coarse-grained quantization granularity for post-LayerNorm activations. Then,
I&S-ViT addresses these issues by introducing: (1) A novel shift-uniform-log2
quantizer (SULQ) that incorporates a shift mechanism followed by uniform
quantization to achieve both an inclusive domain representation and accurate
distribution approximation; (2) A three-stage smooth optimization strategy
(SOS) that amalgamates the strengths of channel-wise and layer-wise
quantization to enable stable learning. Comprehensive evaluations across
diverse vision tasks validate I&S-ViT' superiority over existing PTQ of ViTs
methods, particularly in low-bit scenarios. For instance, I&S-ViT elevates the
performance of 3-bit ViT-B by an impressive 50.68%.