Q-ARVD : Quantification des modèles de diffusion vidéo autorégressifs

Résumé

Les modèles de diffusion vidéo autorégressifs (ARVD) sont apparus comme une architecture prometteuse pour la génération de vidéos en continu, ouvrant la voie à la génération vidéo interactive en temps réel et à la modélisation du monde. Malgré leur potentiel, le coût d'inférence substantiel des ARVD reste un obstacle majeur à leur déploiement pratique, faisant de la quantification de modèles une direction naturelle pour améliorer l'efficacité. Cependant, la quantification des ARVD reste largement inexplorée. Notre analyse empirique montre qu'appliquer directement les schémas de quantification existants développés pour les transformateurs de diffusion standards aux ARVD conduit à des performances sous-optimales, révélant des comportements de quantification différents de ceux observés dans les modèles de diffusion bidirectionnels. Dans cet article, nous identifions deux défis critiques dans la quantification des ARVD : (C1) une sensibilité à la quantification par trame hautement déséquilibrée. L'accumulation d'erreurs lors de la génération autorégressive peut induire une sensibilité à la quantification fortement asymétrique entre les trames, suivant un schéma de décroissance de type exponentiel. (C2) des motifs de valeurs aberrantes proéminents et hétérogènes dans les poids. Les distributions de poids présentent des canaux aberrants prononcés, dont les motifs varient considérablement selon les types de couches et les profondeurs de blocs. Pour résoudre ces problèmes, nous proposons Q-ARVD, un nouveau cadre pour une quantification précise des ARVD. (S1) Pour faire face à la sensibilité par trame hautement déséquilibrée, Q-ARVD intègre un mécanisme de pondération des trames tenant compte de la qualité finale dans l'objectif de quantification. (S2) Pour empêcher les valeurs aberrantes hétérogènes de dégrader les performances, Q-ARVD introduit une quantification adaptative à double échelle sensible aux valeurs aberrantes, qui détecte automatiquement la présence et la quantité de canaux aberrants pour une couche donnée, et les isole pour protéger les canaux normaux. Des expériences approfondies démontrent la supériorité de Q-ARVD.

English

Autoregressive video diffusion models (ARVDs) have emerged as a promising architecture for streaming video generation, paving the way for real-time interactive video generation and world modeling. Despite their potential, the substantial inference cost of ARVDs remains a major obstacle to practical deployment, making model quantization a natural direction for improving efficiency. However, quantization for ARVDs remains largely unexplored. Our empirical analysis shows that directly applying existing quantization schemes developed for standard diffusion transformers to ARVDs leads to suboptimal performance, revealing quantization behaviors that differ from those observed in bidirectional diffusion models. In this paper, we identify two critical challenges in quantizing ARVDs: (C1) Highly unbalanced frame-wise quantization sensitivity. Error accumulation during autoregressive generation can induce severely skewed quantization sensitivity across frames, following an exponential-like decay pattern. (C2) Prominent and heterogeneous outlier patterns in weights. Weight distributions exhibit pronounced outlier channels, whose patterns vary substantially across layer types and block depths. To address these issues, we propose Q-ARVD, a novel framework for accurate ARVD quantization. (S1) To tackle the highly unbalanced frame-wise sensitivity, Q-ARVD incorporates a final-quality aware frame-weighting mechanism into the quantization objective. (S2) To prevent heterogeneous outliers from degrading performance, Q-ARVD introduces an outlier-aware adaptive dual-scale quantization, which automatically detects the presence and quantity of outlier channels for an arbitrary layer, and isolates them to protect normal channels. Extensive experiments demonstrate the superiority of Q-ARVD.