ChatPaper.aiChatPaper

6Bit-Diffusion: Quantizzazione a Precisione Mista al Momento dell'Inferenza per Modelli di Diffusione Video

6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

March 19, 2026
Autori: Rundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen, Jun Zhu
cs.AI

Abstract

I transformer di diffusione hanno dimostrato capacità notevoli nella generazione di video. Tuttavia, il loro utilizzo pratico è fortemente limitato dall'elevato utilizzo di memoria e dai costi computazionali. La quantizzazione post-addestramento fornisce un metodo pratico per ridurre l'uso di memoria e aumentare la velocità di calcolo. I metodi di quantizzazione esistenti applicano tipicamente un'allocazione statica della larghezza di bit, trascurando la difficoltà di quantizzazione delle attivazioni attraverso i passi temporali di diffusione, portando a un compromesso subottimale tra efficienza e qualità. In questo articolo, proponiamo un framework di quantizzazione in mixed-precision NVFP4/INT8 al momento dell'inferenza. Scopriamo una forte correlazione lineare tra la differenza input-output di un blocco e la sensibilità alla quantizzazione dei suoi strati lineari interni. Sulla base di questa intuizione, progettiamo un predittore leggero che alloca dinamicamente NVFP4 agli strati temporalmente stabili per massimizzare la compressione della memoria, preservando selettivamente INT8 per gli strati volatili per garantire robustezza. Questa strategia di precisione adattiva consente una quantizzazione aggressiva senza compromettere la qualità della generazione. Oltre a ciò, osserviamo che il residuo tra l'input e l'output di un blocco Transformer mostra un'elevata coerenza temporale attraverso i passi temporali. Sfruttando questa ridondanza temporale, introduciamo il Temporal Delta Cache (TDC) per saltare i calcoli per questi blocchi invarianti, riducendo ulteriormente il costo computazionale. Esperimenti estesi dimostrano che il nostro metodo raggiunge un'accelerazione end-to-end di 1.92 volte e una riduzione della memoria di 3.32 volte, stabilendo un nuovo riferimento per l'inferenza efficiente nei Video DiT.
English
Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.
PDF31March 27, 2026