ChatPaper.aiChatPaper

6Bit-Diffusion: Gemengde Precisie-Kwantisering tijdens Inferentie voor Videodiffusiemodellen

6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

March 19, 2026
Auteurs: Rundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen, Jun Zhu
cs.AI

Samenvatting

Diffusietransformers hebben opmerkelijke mogelijkheden getoond bij het genereren van video's. Hun praktische inzet wordt echter ernstig beperkt door hoog geheugengebruik en hoge rekencosten. Kwantisatie na training biedt een praktische manier om het geheugengebruik te verminderen en de rekensnelheid te verhogen. Bestaande kwantiseringsmethoden passen typisch een statische bitbreedte-toewijzing toe, waarbij de kwantisatiemoeilijkheid van activeringen over diffusietijdstappen heen wordt genegeerd, wat leidt tot een suboptimale afweging tussen efficiëntie en kwaliteit. In dit artikel stellen we een NVFP4/INT8 mixed-precision kwantiseringsraamwerk voor tijdens de inferentiefase. Wij ontdekken een sterke lineaire correlatie tussen het invoer-uitvoerverschil van een blok en de kwantisatiegevoeligheid van zijn interne lineaire lagen. Gebaseerd op dit inzicht ontwerpen we een lichtgewicht voorspeller die dynamisch NVFP4 toewijst aan temporeel stabiele lagen om geheugencompressie te maximaliseren, terwijl selectief INT8 behouden blijft voor vluchtige lagen om robuustheid te garanderen. Deze adaptieve precisiestrategie maakt agressieve kwantisatie mogelijk zonder in te boeten op generatiekwaliteit. Daarnaast observeren we dat het residu tussen de invoer en uitvoer van een Transformer-blok een hoge temporele consistentie vertoont over tijdstappen heen. Gebruikmakend van deze temporele redundantie introduceren we een Temporal Delta Cache (TDC) om berekeningen voor deze invariante blokken over te slaan, wat de rekencosten verder verlaagt. Uitgebreide experimenten tonen aan dat onze methode een 1,92x end-to-end versnelling en een 3,32x geheugenreductie bereikt, waarmee een nieuwe standaard wordt gezet voor efficiënte inferentie in Video DiT's.
English
Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.
PDF31March 27, 2026