ChatPaper.aiChatPaper

I&S-ViT: Eine inklusive und stabile Methode zur Erweiterung der Grenzen der Post-Training-Quantisierung von Vision Transformern

I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization

November 16, 2023
Autoren: Yunshan Zhong, Jiawei Hu, Mingbao Lin, Mengzhao Chen, Rongrong Ji
cs.AI

Zusammenfassung

Obwohl Vision Transformer (ViTs) eine skalierbare Leistung bieten, untergraben die hohen Rechenkosten (Training und Inferenz) ihre Position in industriellen Anwendungen. Die Post-Training-Quantisierung (PTQ), bei der ViTs mit einem kleinen Datensatz angepasst und in einem niedrigen Bit-Format ausgeführt werden, löst das Kostenproblem gut, führt jedoch leider zu stärkeren Leistungseinbußen in niedrigeren Bit-Fällen. In diesem Artikel stellen wir I&S-ViT vor, eine neuartige Methode, die die PTQ von ViTs auf inklusive und stabile Weise reguliert. I&S-ViT identifiziert zunächst zwei Probleme in der PTQ von ViTs: (1) Ineffizienz der Quantisierung im weit verbreiteten log2-Quantisierer für Post-Softmax-Aktivierungen; (2) Unebene und verstärkte Verlustlandschaft bei grobkörniger Quantisierungsgranularität für Post-LayerNorm-Aktivierungen. Anschließend adressiert I&S-ViT diese Probleme durch die Einführung von: (1) Einem neuartigen Shift-Uniform-log2-Quantisierer (SULQ), der einen Verschiebungsmechanismus gefolgt von einer gleichmäßigen Quantisierung integriert, um sowohl eine inklusive Domänendarstellung als auch eine genaue Verteilungsapproximation zu erreichen; (2) Eine dreistufige glatte Optimierungsstrategie (SOS), die die Stärken der kanalweisen und schichtweisen Quantisierung kombiniert, um stabiles Lernen zu ermöglichen. Umfassende Bewertungen über verschiedene Vision-Aufgaben bestätigen die Überlegenheit von I&S-ViT gegenüber bestehenden PTQ-Methoden für ViTs, insbesondere in niedrigen Bit-Szenarien. Beispielsweise steigert I&S-ViT die Leistung von 3-Bit-ViT-B um beeindruckende 50,68 %.
English
Albeit the scalable performance of vision transformers (ViTs), the dense computational costs (training & inference) undermine their position in industrial applications. Post-training quantization (PTQ), tuning ViTs with a tiny dataset and running in a low-bit format, well addresses the cost issue but unluckily bears more performance drops in lower-bit cases. In this paper, we introduce I&S-ViT, a novel method that regulates the PTQ of ViTs in an inclusive and stable fashion. I&S-ViT first identifies two issues in the PTQ of ViTs: (1) Quantization inefficiency in the prevalent log2 quantizer for post-Softmax activations; (2) Rugged and magnified loss landscape in coarse-grained quantization granularity for post-LayerNorm activations. Then, I&S-ViT addresses these issues by introducing: (1) A novel shift-uniform-log2 quantizer (SULQ) that incorporates a shift mechanism followed by uniform quantization to achieve both an inclusive domain representation and accurate distribution approximation; (2) A three-stage smooth optimization strategy (SOS) that amalgamates the strengths of channel-wise and layer-wise quantization to enable stable learning. Comprehensive evaluations across diverse vision tasks validate I&S-ViT' superiority over existing PTQ of ViTs methods, particularly in low-bit scenarios. For instance, I&S-ViT elevates the performance of 3-bit ViT-B by an impressive 50.68%.
PDF100December 15, 2024