6Bit-Diffusion : Quantification en Précision Mixte lors de l'Inférence pour les Modèles de Diffusion Vidéo
6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models
March 19, 2026
Auteurs: Rundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen, Jun Zhu
cs.AI
Résumé
Les transformateurs de diffusion ont démontré des capacités remarquables dans la génération de vidéos. Cependant, leur déploiement pratique est sévèrement limité par une utilisation mémoire élevée et un coût computationnel important. La quantification post-entraînement offre une solution pratique pour réduire l'utilisation mémoire et augmenter la vitesse de calcul. Les méthodes de quantification existantes appliquent généralement une allocation statique de largeur de bits, négligeant la difficulté de quantification des activations à travers les pas de temps de diffusion, ce qui conduit à un compromis sous-optimal entre efficacité et qualité. Dans cet article, nous proposons un cadre de quantification mixte NVFP4/INT8 au moment de l'inférence. Nous découvrons une forte corrélation linéaire entre la différence entrée-sortie d'un bloc et la sensibilité à la quantification de ses couches linéaires internes. Sur la base de cette observation, nous concevons un prédicteur léger qui alloue dynamiquement NVFP4 aux couches temporellement stables pour maximiser la compression mémoire, tout en préservant sélectivement INT8 pour les couches volatiles afin d'assurer la robustesse. Cette stratégie de précision adaptative permet une quantification agressive sans compromettre la qualité de génération. Par ailleurs, nous observons que le résidu entre l'entrée et la sortie d'un bloc Transformer présente une grande cohérence temporelle à travers les pas de temps. Exploitant cette redondance temporelle, nous introduisons le Temporal Delta Cache (TDC) pour sauter les calculs de ces blocs invariants, réduisant ainsi davantage le coût computationnel. Des expériences approfondies démontrent que notre méthode atteint une accélération de bout en bout de 1,92 fois et une réduction mémoire de 3,32 fois, établissant une nouvelle référence pour l'inférence efficace dans les Video DiTs.
English
Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.