6Bit-Diffusion: Cuantización de Precisión Mixta en Tiempo de Inferencia para Modelos de Difusión de Video

Resumen

Los transformadores de difusión han demostrado capacidades notables en la generación de videos. Sin embargo, su implementación práctica se ve severamente limitada por el alto uso de memoria y el coste computacional. La Cuantización Post-Entrenamiento ofrece una forma práctica de reducir el uso de memoria y aumentar la velocidad de cálculo. Los métodos de cuantización existentes suelen aplicar una asignación estática de ancho de bits, pasando por alto la dificultad de cuantización de las activaciones a lo largo de los pasos de difusión, lo que conduce a un equilibrio subóptimo entre eficiencia y calidad. En este artículo, proponemos un marco de Cuantización de Precisión Mixta NVFP4/INT8 durante la inferencia. Encontramos una fuerte correlación lineal entre la diferencia entrada-salida de un bloque y la sensibilidad a la cuantización de sus capas lineales internas. Basándonos en esta observación, diseñamos un predictor ligero que asigna dinámicamente NVFP4 a las capas temporalmente estables para maximizar la compresión de memoria, mientras preserva selectivamente INT8 para las capas volátiles para garantizar robustez. Esta estrategia de precisión adaptativa permite una cuantización agresiva sin comprometer la calidad de la generación. Además de esto, observamos que el residuo entre la entrada y la salida de un bloque Transformer exhibe una alta consistencia temporal a lo largo de los pasos. Aprovechando esta redundancia temporal, introducimos Temporal Delta Cache (TDC) para omitir los cálculos de estos bloques invariantes, reduciendo aún más el coste computacional. Experimentos exhaustivos demuestran que nuestro método logra una aceleración de extremo a extremo de 1.92x y una reducción de memoria de 3.32x, estableciendo un nuevo referente para la inferencia eficiente en Video DiTs.

English

Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.

6Bit-Diffusion: Cuantización de Precisión Mixta en Tiempo de Inferencia para Modelos de Difusión de Video

6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Resumen

Support