6Bit-Diffusion: ビデオ拡散モデル向け推論時混合精度量子化
6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models
March 19, 2026
著者: Rundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen, Jun Zhu
cs.AI
要旨
拡散トランスフォーマーは、映像生成において顕著な能力を発揮している。しかし、その実用的な展開は、高いメモリ使用量と計算コストによって大きく制約されている。学習後量子化は、メモリ使用量を削減し計算速度を向上させる実用的な手法である。既存の量子化手法は一般的に静的なビット幅割り当てを適用しており、拡散タイムステップ間における活性化の量子化難易度を考慮していないため、効率と品質の間で最適ではないトレードオフが生じている。本論文では、推論時におけるNVFP4/INT8混合精度量子化フレームワークを提案する。我々は、ブロックの入出力差とその内部線形層の量子化感度との間に強い線形相関があることを発見した。この知見に基づき、時間的に安定した層にはNVFP4を動的に割り当ててメモリ圧縮を最大化し、変動の大きい層には選択的にINT8を保持して堅牢性を確保する、軽量な予測器を設計した。この適応的精度戦略により、生成品質を損なうことなく積極的な量子化が可能となる。さらに、Transformerブロックの入力と出力の残差が、タイムステップ間で高い時間的一貫性を示すことを観察した。この時間的冗長性を活用し、不変なブロックの計算をスキップするTemporal Delta Cacheを導入し、計算コストをさらに削減する。大規模な実験により、本手法がエンドツーエンドで1.92倍の高速化と3.32倍のメモリ削減を達成し、Video DiTにおける効率的な推論の新たなベースラインを確立することを実証した。
English
Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.