Q-ARVD: Cuantización de Modelos de Difusión de Video Autoregresivos

Resumen

Los modelos de difusión de video autorregresivos (ARVDs) han surgido como una arquitectura prometedora para la generación de video en streaming, allanando el camino para la generación de video interactiva en tiempo real y el modelado del mundo. A pesar de su potencial, el costo sustancial de inferencia de los ARVDs sigue siendo un obstáculo importante para su implementación práctica, lo que convierte a la cuantización de modelos en una dirección natural para mejorar la eficiencia. Sin embargo, la cuantización para ARVDs sigue siendo en gran medida inexplorada. Nuestro análisis empírico muestra que la aplicación directa de los esquemas de cuantización existentes, desarrollados para transformadores de difusión estándar, a los ARVDs produce un rendimiento subóptimo, revelando comportamientos de cuantización que difieren de los observados en modelos de difusión bidireccionales. En este artículo, identificamos dos desafíos críticos en la cuantización de ARVDs: (C1) Sensibilidad de cuantización por fotograma altamente desequilibrada. La acumulación de errores durante la generación autorregresiva puede inducir una sensibilidad a la cuantización severamente sesgada entre fotogramas, siguiendo un patrón de decaimiento de tipo exponencial. (C2) Patrones de valores atípicos prominentes y heterogéneos en los pesos. Las distribuciones de pesos presentan canales atípicos pronunciados, cuyos patrones varían sustancialmente entre tipos de capas y profundidades de bloques. Para abordar estos problemas, proponemos Q-ARVD, un marco novedoso para la cuantización precisa de ARVDs. (S1) Para hacer frente a la sensibilidad por fotograma altamente desequilibrada, Q-ARVD incorpora un mecanismo de ponderación de fotogramas que tiene en cuenta la calidad final dentro del objetivo de cuantización. (S2) Para evitar que los valores atípicos heterogéneos degraden el rendimiento, Q-ARVD introduce una cuantización adaptativa de doble escala consciente de valores atípicos, que detecta automáticamente la presencia y cantidad de canales atípicos para una capa arbitraria, y los aísla para proteger los canales normales. Experimentos exhaustivos demuestran la superioridad de Q-ARVD.

English

Autoregressive video diffusion models (ARVDs) have emerged as a promising architecture for streaming video generation, paving the way for real-time interactive video generation and world modeling. Despite their potential, the substantial inference cost of ARVDs remains a major obstacle to practical deployment, making model quantization a natural direction for improving efficiency. However, quantization for ARVDs remains largely unexplored. Our empirical analysis shows that directly applying existing quantization schemes developed for standard diffusion transformers to ARVDs leads to suboptimal performance, revealing quantization behaviors that differ from those observed in bidirectional diffusion models. In this paper, we identify two critical challenges in quantizing ARVDs: (C1) Highly unbalanced frame-wise quantization sensitivity. Error accumulation during autoregressive generation can induce severely skewed quantization sensitivity across frames, following an exponential-like decay pattern. (C2) Prominent and heterogeneous outlier patterns in weights. Weight distributions exhibit pronounced outlier channels, whose patterns vary substantially across layer types and block depths. To address these issues, we propose Q-ARVD, a novel framework for accurate ARVD quantization. (S1) To tackle the highly unbalanced frame-wise sensitivity, Q-ARVD incorporates a final-quality aware frame-weighting mechanism into the quantization objective. (S2) To prevent heterogeneous outliers from degrading performance, Q-ARVD introduces an outlier-aware adaptive dual-scale quantization, which automatically detects the presence and quantity of outlier channels for an arbitrary layer, and isolates them to protect normal channels. Extensive experiments demonstrate the superiority of Q-ARVD.