6Bit-Diffusion: Quantização de Precisão Mista no Momento da Inferência para Modelos de Difusão de Vídeo

Resumo

Os transformadores de difusão demonstraram capacidades notáveis na geração de vídeos. No entanto, sua implantação prática é severamente limitada pelo alto uso de memória e custo computacional. A Quantização Pós-Treinamento oferece uma maneira prática de reduzir o uso de memória e aumentar a velocidade de computação. Os métodos de quantização existentes normalmente aplicam uma alocação estática de largura de bits, negligenciando a dificuldade de quantização das ativações ao longo das etapas de difusão (timesteps), resultando em um compromisso subótimo entre eficiência e qualidade. Neste artigo, propomos uma estrutura de Quantização de Precisão Mista NVFP4/INT8 em tempo de inferência. Descobrimos uma forte correlação linear entre a diferença entrada-saída de um bloco e a sensibilidade à quantização de suas camadas lineares internas. Com base nessa percepção, projetamos um preditor leve que aloca dinamicamente NVFP4 para camadas temporalmente estáveis para maximizar a compressão de memória, enquanto preserva seletivamente INT8 para camadas voláteis para garantir robustez. Esta estratégia de precisão adaptativa permite uma quantização agressiva sem comprometer a qualidade da geração. Além disso, observamos que o resíduo entre a entrada e a saída de um bloco Transformer exibe alta consistência temporal ao longo das etapas de difusão. Aproveitando essa redundância temporal, introduzimos o Temporal Delta Cache (TDC) para ignorar os cálculos desses blocos invariantes, reduzindo ainda mais o custo computacional. Experimentos extensivos demonstram que nosso método alcança uma aceleração de ponta a ponta de 1,92x e uma redução de memória de 3,32x, estabelecendo uma nova referência para inferência eficiente em Video DiTs.

English

Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.

6Bit-Diffusion: Quantização de Precisão Mista no Momento da Inferência para Modelos de Difusão de Vídeo

6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Resumo

Support