Q-ARVD: Quantização de Modelos de Difusão de Vídeo Autorregressivos

Resumo

Modelos de difusão de vídeo autoregressivos (ARVDs) surgiram como uma arquitetura promissora para geração de vídeo em streaming, abrindo caminho para geração de vídeo interativa em tempo real e modelagem de mundo. Apesar de seu potencial, o custo substancial de inferência dos ARVDs continua sendo um grande obstáculo para a implantação prática, tornando a quantização de modelos uma direção natural para melhorar a eficiência. No entanto, a quantização para ARVDs permanece amplamente inexplorada. Nossa análise empírica mostra que aplicar diretamente esquemas de quantização existentes, desenvolvidos para transformadores de difusão padrão, aos ARVDs leva a um desempenho subótimo, revelando comportamentos de quantização que diferem daqueles observados em modelos de difusão bidirecionais. Neste artigo, identificamos dois desafios críticos na quantização de ARVDs: (C1) Sensibilidade de quantização altamente desbalanceada entre quadros. O acúmulo de erros durante a geração autoregressiva pode induzir uma sensibilidade de quantização severamente distorcida entre os quadros, seguindo um padrão de decaimento semelhante a exponencial. (C2) Padrões proeminentes e heterogêneos de valores discrepantes nos pesos. As distribuições de pesos exibem canais discrepantes pronunciados, cujos padrões variam substancialmente entre tipos de camadas e profundidades de blocos. Para lidar com essas questões, propomos o Q-ARVD, uma nova estrutura para quantização precisa de ARVDs. (S1) Para enfrentar a sensibilidade altamente desbalanceada entre quadros, o Q-ARVD incorpora um mecanismo de ponderação de quadros ciente da qualidade final ao objetivo de quantização. (S2) Para evitar que valores discrepantes heterogêneos degradem o desempenho, o Q-ARVD introduz uma quantização adaptativa de escala dupla ciente de valores discrepantes, que detecta automaticamente a presença e a quantidade de canais discrepantes para uma camada arbitrária, isolando-os para proteger os canais normais. Extensos experimentos demonstram a superioridade do Q-ARVD.

English

Autoregressive video diffusion models (ARVDs) have emerged as a promising architecture for streaming video generation, paving the way for real-time interactive video generation and world modeling. Despite their potential, the substantial inference cost of ARVDs remains a major obstacle to practical deployment, making model quantization a natural direction for improving efficiency. However, quantization for ARVDs remains largely unexplored. Our empirical analysis shows that directly applying existing quantization schemes developed for standard diffusion transformers to ARVDs leads to suboptimal performance, revealing quantization behaviors that differ from those observed in bidirectional diffusion models. In this paper, we identify two critical challenges in quantizing ARVDs: (C1) Highly unbalanced frame-wise quantization sensitivity. Error accumulation during autoregressive generation can induce severely skewed quantization sensitivity across frames, following an exponential-like decay pattern. (C2) Prominent and heterogeneous outlier patterns in weights. Weight distributions exhibit pronounced outlier channels, whose patterns vary substantially across layer types and block depths. To address these issues, we propose Q-ARVD, a novel framework for accurate ARVD quantization. (S1) To tackle the highly unbalanced frame-wise sensitivity, Q-ARVD incorporates a final-quality aware frame-weighting mechanism into the quantization objective. (S2) To prevent heterogeneous outliers from degrading performance, Q-ARVD introduces an outlier-aware adaptive dual-scale quantization, which automatically detects the presence and quantity of outlier channels for an arbitrary layer, and isolates them to protect normal channels. Extensive experiments demonstrate the superiority of Q-ARVD.