Spekulatives Decodieren für autoregressive Videogenerierung

Zusammenfassung

Autoregressive Video-Diffusion etabliert sich als vielversprechendes Paradigma für die Synthese von Streaming-Videos, wobei Schritt-Distillation die primäre Methode zur Beschleunigung des Inferenzvorgangs darstellt. Ob spekulatives Decodieren, die dominante Beschleunigungsstrategie für große Sprachmodelle, effektiv auf die autoregressive Videogenerierung übertragen werden kann, bleibt eine offene Frage, da Videoblöcke kontinuierliche raumzeitliche Tensoren ohne Token-verteilung für exakte Rejection-Sampling sind. Wir stellen SDVG vor, welches spekulatives Decodieren für blockbasierte autoregressive Video-Diffusion ermöglicht, indem es die Token-Verifikation durch einen Bildqualitäts-Router ersetzt. Ein 1,3B-Drafter schlägt Kandidatenblöcke in vier Denoising-Schritten vor; jeder Block wird VAE-decodiert und mittels ImageReward nach dem Worst-Frame-Prinzip bewertet – dabei wird die minimale Belohnung pro Frame herangezogen, um Einzelframe-Artefakte zu erfassen, die ein Durchschnittswert verschleiern würde. Blöcke mit einer Bewertung über einem festen Schwellenwert τ werden im KV-Cache des 14B-Zielmodells akzeptiert; der Rest wird vom Zielmodell regeneriert. Zwei zusätzliche Designentscheidungen erweisen sich als entscheidend: Der erste Block wird stets zwangsabgelehnt, um die Szenenkomposition zu verankern, und τ dient als einziger Regler, der eine glatte Qualitäts-Geschwindigkeits-Pareto-Front nachzeichnet. Auf 1003 MovieGenVideoBench-Prompts (832x480) behält SDVG bei τ=-0,7 98,1 % der VisionReward-Qualität des reinen Zielmodells (0,0773 vs. 0,0788) bei einer 1,59-fachen Beschleunigung und erreicht bei 95,7 % Qualitätserhalt eine 2,09-fache Beschleunigung – während es durchgängig die rein Drafter-basierte Generierung um über +17 % übertrifft. Das Framework ist trainingsfrei, erfordert keine Architekturänderungen und kann nahtlos in bestehende autoregressive Videogenerierungs-Pipelines integriert werden.

English

Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.

Spekulatives Decodieren für autoregressive Videogenerierung

Speculative Decoding for Autoregressive Video Generation

Zusammenfassung

Support