Q-ARVD: Kwantiseren van Autoregressieve Videodiffusiemodellen

Samenvatting

Autoregressieve videodiffusiemodellen (ARVD's) zijn naar voren gekomen als een veelbelovende architectuur voor streaming videogeneratie, waardoor de weg wordt vrijgemaakt voor real-time interactieve videogeneratie en wereldmodellering. Ondanks hun potentieel blijven de aanzienlijke inferentiekosten van ARVD's een groot obstakel voor praktische implementatie, waardoor modelkwantisering een logische richting is om de efficiëntie te verbeteren. Kwantisering voor ARVD's is echter grotendeels onontgonnen. Onze empirische analyse toont aan dat het direct toepassen van bestaande kwantiseringsschema's die zijn ontwikkeld voor standaard diffusietransformators op ARVD's leidt tot suboptimale prestaties, waarbij kwantiseringgedrag aan het licht komt dat verschilt van dat waargenomen in bidirectionele diffusiemodellen. In dit artikel identificeren we twee cruciale uitdagingen bij het kwantiseren van ARVD's: (C1) Zeer onevenwichtige framesgewijze kwantiseringgevoeligheid. Foutaccumulatie tijdens autoregressieve generatie kan leiden tot ernstig scheve kwantiseringgevoeligheid over frames heen, volgens een exponentieel vervalpatroon. (C2) Prominente en heterogene uitbijterpatronen in gewichten. Gewichtsverdelingen vertonen uitgesproken uitbijterkanalen, waarvan de patronen aanzienlijk variëren per laagtype en blokdiepte. Om deze problemen aan te pakken, stellen we Q-ARVD voor, een nieuw raamwerk voor nauwkeurige ARVD-kwantisering. (S1) Om de zeer onevenwichtige framesgewijze gevoeligheid aan te pakken, integreert Q-ARVD een op eindkwaliteit gericht framewegingsmechanisme in de kwantiseringdoelstelling. (S2) Om te voorkomen dat heterogene uitbijters de prestaties aantasten, introduceert Q-ARVD een uitbijterbewuste adaptieve duale-schaalkwantisering, die automatisch de aanwezigheid en het aantal uitbijterkanalen detecteert voor een willekeurige laag, en deze isoleert om normale kanalen te beschermen. Uitgebreide experimenten tonen de superioriteit van Q-ARVD aan.

English

Autoregressive video diffusion models (ARVDs) have emerged as a promising architecture for streaming video generation, paving the way for real-time interactive video generation and world modeling. Despite their potential, the substantial inference cost of ARVDs remains a major obstacle to practical deployment, making model quantization a natural direction for improving efficiency. However, quantization for ARVDs remains largely unexplored. Our empirical analysis shows that directly applying existing quantization schemes developed for standard diffusion transformers to ARVDs leads to suboptimal performance, revealing quantization behaviors that differ from those observed in bidirectional diffusion models. In this paper, we identify two critical challenges in quantizing ARVDs: (C1) Highly unbalanced frame-wise quantization sensitivity. Error accumulation during autoregressive generation can induce severely skewed quantization sensitivity across frames, following an exponential-like decay pattern. (C2) Prominent and heterogeneous outlier patterns in weights. Weight distributions exhibit pronounced outlier channels, whose patterns vary substantially across layer types and block depths. To address these issues, we propose Q-ARVD, a novel framework for accurate ARVD quantization. (S1) To tackle the highly unbalanced frame-wise sensitivity, Q-ARVD incorporates a final-quality aware frame-weighting mechanism into the quantization objective. (S2) To prevent heterogeneous outliers from degrading performance, Q-ARVD introduces an outlier-aware adaptive dual-scale quantization, which automatically detects the presence and quantity of outlier channels for an arbitrary layer, and isolates them to protect normal channels. Extensive experiments demonstrate the superiority of Q-ARVD.