I&S-ViT: Un método inclusivo y estable para ampliar el límite de la cuantización post-entrenamiento de ViTs
I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization
November 16, 2023
Autores: Yunshan Zhong, Jiawei Hu, Mingbao Lin, Mengzhao Chen, Rongrong Ji
cs.AI
Resumen
Aunque los transformadores de visión (ViTs) ofrecen un rendimiento escalable, los elevados costos computacionales (entrenamiento e inferencia) socavan su posición en aplicaciones industriales. La cuantización post-entrenamiento (PTQ), que ajusta los ViTs con un pequeño conjunto de datos y los ejecuta en un formato de baja precisión, aborda bien el problema de costos, pero desafortunadamente sufre mayores caídas de rendimiento en casos de menor precisión. En este artículo, presentamos I&S-ViT, un método novedoso que regula la PTQ de los ViTs de manera inclusiva y estable. I&S-ViT primero identifica dos problemas en la PTQ de los ViTs: (1) Ineficiencia de cuantización en el cuantizador log2 predominante para activaciones post-Softmax; (2) Paisaje de pérdida irregular y amplificado en la granularidad de cuantización de grano grueso para activaciones post-LayerNorm. Luego, I&S-ViT aborda estos problemas introduciendo: (1) Un novedoso cuantizador shift-uniform-log2 (SULQ) que incorpora un mecanismo de desplazamiento seguido de cuantización uniforme para lograr tanto una representación de dominio inclusiva como una aproximación precisa de la distribución; (2) Una estrategia de optimización suave en tres etapas (SOS) que combina las fortalezas de la cuantización por canal y por capa para permitir un aprendizaje estable. Evaluaciones exhaustivas en diversas tareas de visión validan la superioridad de I&S-ViT sobre los métodos existentes de PTQ para ViTs, particularmente en escenarios de baja precisión. Por ejemplo, I&S-ViT eleva el rendimiento de ViT-B de 3 bits en un impresionante 50.68%.
English
Albeit the scalable performance of vision transformers (ViTs), the dense
computational costs (training & inference) undermine their position in
industrial applications. Post-training quantization (PTQ), tuning ViTs with a
tiny dataset and running in a low-bit format, well addresses the cost issue but
unluckily bears more performance drops in lower-bit cases. In this paper, we
introduce I&S-ViT, a novel method that regulates the PTQ of ViTs in an
inclusive and stable fashion. I&S-ViT first identifies two issues in the PTQ of
ViTs: (1) Quantization inefficiency in the prevalent log2 quantizer for
post-Softmax activations; (2) Rugged and magnified loss landscape in
coarse-grained quantization granularity for post-LayerNorm activations. Then,
I&S-ViT addresses these issues by introducing: (1) A novel shift-uniform-log2
quantizer (SULQ) that incorporates a shift mechanism followed by uniform
quantization to achieve both an inclusive domain representation and accurate
distribution approximation; (2) A three-stage smooth optimization strategy
(SOS) that amalgamates the strengths of channel-wise and layer-wise
quantization to enable stable learning. Comprehensive evaluations across
diverse vision tasks validate I&S-ViT' superiority over existing PTQ of ViTs
methods, particularly in low-bit scenarios. For instance, I&S-ViT elevates the
performance of 3-bit ViT-B by an impressive 50.68%.