6Bit-Diffusion: 비디오 확산 모델을 위한 추론 시 혼합 정밀도 양자화
6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models
March 19, 2026
저자: Rundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen, Jun Zhu
cs.AI
초록
확산 트랜스포머는 비디오 생성에서 뛰어난 능력을 입증했습니다. 그러나 높은 메모리 사용량과 계산 비용으로 인해 실제 배포는 심각하게 제한됩니다. 학습 후 양자화는 메모리 사용량을 줄이고 계산 속도를 높이는 실용적인 방법을 제공합니다. 기존 양자화 방법은 일반적으로 정적 비트 너비 할당을 적용하는데, 이는 확산 타임스텝에 따른 활성화 함수의 양자화 난이도를 간과하여 효율성과 품질 간의 최적의 균형을 달성하지 못합니다. 본 논문에서는 추론 시점에 적용되는 NVFP4/INT8 혼합 정밀도 양자화 프레임워크를 제안합니다. 우리는 블록의 입력-출력 차이와 해당 블록 내부 선형 레이어의 양자화 민감도 사이에 강한 선형 상관관계가 있음을 발견했습니다. 이러한 통찰을 바탕으로, 시간적으로 안정적인 레이어에는 NVFP4를 동적으로 할당하여 메모리 압축을 극대화하고, 변동성이 큰 레이어에는 선택적으로 INT8을 보존하여 견고성을 보장하는 경량 예측기를 설계했습니다. 이 적응형 정밀도 전략은 생성 품질을 저해하지 않으면서 공격적인 양자화를 가능하게 합니다. 또한, 우리는 트랜스포머 블록의 입력과 출력 간의 잔차가 타임스텝에 걸쳐 높은 시간적 일관성을 보인다는 것을 관찰했습니다. 이러한 시간적 중복성을 활용하여 우리는 불변 블록에 대한 계산을 건너뛰기 위한 Temporal Delta Cache(TDC)를 도입하여 계산 비용을 추가로 절감합니다. 광범위한 실험을 통해 우리의 방법이 1.92배의 종단 간 가속화와 3.32배의 메모리 감소를 달성하여 Video DiT의 효율적인 추론을 위한 새로운 기준을 수립함을 입증했습니다.
English
Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.