Q-ARVD: Quantisierung autoregressiver Video-Diffusionsmodelle

Zusammenfassung

Autoregressive Video-Diffusionsmodelle (ARVDs) haben sich als vielversprechende Architektur für die Erzeugung von Streaming-Videos etabliert und ebnen den Weg für interaktive Echtzeit-Videogenerierung und Weltmodellierung. Trotz ihres Potenzials bleiben die erheblichen Inferenzkosten von ARVDs ein Haupthindernis für den praktischen Einsatz, was die Modellquantisierung als naheliegenden Ansatz zur Effizienzsteigerung erscheinen lässt. Allerdings ist die Quantisierung von ARVDs bislang weitgehend unerforscht. Unsere empirische Analyse zeigt, dass die direkte Anwendung bestehender Quantisierungsverfahren, die für Standard-Diffusionstransformatoren entwickelt wurden, auf ARVDs zu suboptimaler Leistung führt und dabei Quantisierungsverhalten offenbart, das sich von dem in bidirektionalen Diffusionsmodellen beobachteten unterscheidet. In diesem Artikel identifizieren wir zwei kritische Herausforderungen bei der Quantisierung von ARVDs: (C1) Hochgradig ungleichgewichtete frame-bezogene Quantisierungsempfindlichkeit. Fehlerakkumulation während der autoregressiven Erzeugung kann eine stark verzerrte Quantisierungsempfindlichkeit über Frames hinweg hervorrufen, die einem exponentiell abklingenden Muster folgt. (C2) Ausgeprägte und heterogene Ausreißermuster in Gewichten. Gewichtsverteilungen weisen ausgeprägte Ausreißerkanäle auf, deren Muster je nach Schichttyp und Blocktiefe erheblich variieren. Um diese Probleme zu adressieren, schlagen wir Q-ARVD vor, ein neuartiges Framework für die präzise Quantisierung von ARVDs. (S1) Zur Bewältigung der hochgradig ungleichgewichteten frame-bezogenen Empfindlichkeit integriert Q-ARVD einen auf die endgültige Qualität ausgerichteten Frame-Gewichtungsmechanismus in das Quantisierungsziel. (S2) Um zu verhindern, dass heterogene Ausreißer die Leistung beeinträchtigen, führt Q-ARVD eine ausreißerbewusste adaptive Dual-Skalen-Quantisierung ein, die das Vorhandensein und die Anzahl von Ausreißerkanälen für eine beliebige Schicht automatisch erkennt und diese isoliert, um normale Kanäle zu schützen. Umfangreiche Experimente belegen die Überlegenheit von Q-ARVD.

English

Autoregressive video diffusion models (ARVDs) have emerged as a promising architecture for streaming video generation, paving the way for real-time interactive video generation and world modeling. Despite their potential, the substantial inference cost of ARVDs remains a major obstacle to practical deployment, making model quantization a natural direction for improving efficiency. However, quantization for ARVDs remains largely unexplored. Our empirical analysis shows that directly applying existing quantization schemes developed for standard diffusion transformers to ARVDs leads to suboptimal performance, revealing quantization behaviors that differ from those observed in bidirectional diffusion models. In this paper, we identify two critical challenges in quantizing ARVDs: (C1) Highly unbalanced frame-wise quantization sensitivity. Error accumulation during autoregressive generation can induce severely skewed quantization sensitivity across frames, following an exponential-like decay pattern. (C2) Prominent and heterogeneous outlier patterns in weights. Weight distributions exhibit pronounced outlier channels, whose patterns vary substantially across layer types and block depths. To address these issues, we propose Q-ARVD, a novel framework for accurate ARVD quantization. (S1) To tackle the highly unbalanced frame-wise sensitivity, Q-ARVD incorporates a final-quality aware frame-weighting mechanism into the quantization objective. (S2) To prevent heterogeneous outliers from degrading performance, Q-ARVD introduces an outlier-aware adaptive dual-scale quantization, which automatically detects the presence and quantity of outlier channels for an arbitrary layer, and isolates them to protect normal channels. Extensive experiments demonstrate the superiority of Q-ARVD.