6Bit-Diffusion: Gemischte Präzision zur Inferenzzeit für die Quantisierung von Videodiffusionsmodellen
6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models
March 19, 2026
Autoren: Rundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen, Jun Zhu
cs.AI
Zusammenfassung
Diffusion-Transformer haben bemerkenswerte Fähigkeiten bei der Erzeugung von Videos demonstriert. Ihre praktische Anwendung wird jedoch stark durch hohen Speicherverbrauch und Rechenkosten eingeschränkt. Die Quantisierung nach dem Training bietet einen praktischen Ansatz, um den Speicherverbrauch zu reduzieren und die Rechengeschwindigkeit zu steigern. Bestehende Quantisierungsmethoden wenden typischerweise eine statische Bitbreiten-Zuteilung an, übersehen dabei jedoch die unterschiedliche Quantisierungsschwierigkeit der Aktivierungen über die Diffusions-Zeitschritte hinweg, was zu einem suboptimalen Kompromiss zwischen Effizienz und Qualität führt. In diesem Artikel schlagen wir ein Inferenzzeit-NVFP4/INT8-Mixed-Precision-Quantisierungsframework vor. Wir entdecken eine starke lineare Korrelation zwischen der Eingabe-Ausgabe-Differenz eines Blocks und der Quantisierungsempfindlichkeit seiner internen linearen Schichten. Aufbauend auf dieser Erkenntnis entwerfen wir einen leichtgewichtigen Prädiktor, der NVFP4 dynamisch zeitlich stabilen Schichten zuweist, um die Speicherkompression zu maximieren, während er gleichzeitig INT8 selektiv für volatile Schichten beibehält, um Robustheit zu gewährleisten. Diese adaptive Präzisionsstrategie ermöglicht eine aggressive Quantisierung ohne Einbußen bei der Erzeugungsqualität. Darüber hinaus beobachten wir, dass die Differenz zwischen Eingabe und Ausgabe eines Transformer-Blocks eine hohe zeitliche Konsistenz über die Zeitschritte hinweg aufweist. Indem wir diese temporale Redundanz nutzen, führen wir den Temporal Delta Cache (TDC) ein, um Berechnungen für diese invarianten Blöcke zu überspringen und so die Rechenkosten weiter zu senken. Umfangreiche Experimente belegen, dass unsere Methode eine 1,92-fache Ende-zu-Ende-Beschleunigung und eine 3,32-fache Speicherreduzierung erreicht und damit einen neuen Maßstab für effiziente Inferenz in Video-DiTs setzt.
English
Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.