Speculatief decoderen voor autoregressieve videogeneratie

Samenvatting

Autoregressieve videodiffusie ontwikkelt zich als een veelbelovend paradigma voor de synthese van streamende video's, waarbij stapdistillatie de primaire methode is om inferentie te versnellen. Of speculatieve decodering, de dominante versnellingsstrategie voor grote taalmodel(len), effectief kan worden aangepast voor autoregressieve videogeneratie, blijft een open vraag. Dit komt omdat videoblokken continue spatiotemporele tensoren zijn zonder token-level verdeling voor exacte rejection sampling. Wij introduceren SDVG, dat speculatieve decodering toepast op blokgebaseerde autoregressieve videodiffusie door tokenverificatie te vervangen door een router voor beeldkwaliteit. Een 1.3B 'drafter' stelt kandidaatblokken voor via vier denoising-stappen; elk blok wordt VAE-gedecodeerd en gescoord door ImageReward met behulp van 'worst-frame aggregation'—het nemen van de minimale beloning per frame om enkelkaderartefacten te detecteren die gemiddelde waarden zouden maskeren. Blokken met een score boven een vaste drempelwaarde τ worden geaccepteerd in de KV-cache van het 14B-doelmodel; de rest wordt opnieuw gegenereerd door het doelmodel. Twee aanvullende ontwerpkeuzes blijken cruciaal: het eerste blok wordt altijd geforceerd afgewezen om de scènesamenstelling te verankeren, en τ fungeert als een enkele knop die een soepel kwaliteit-snelheid Pareto-front traceert. Op 1003 MovieGenVideoBench-prompts (832x480) behoudt SDVG 98.1% van de VisionReward-kwaliteit van alleen het doelmodel (0.0773 vs. 0.0788) bij een 1.59x versnelling met τ=-0.7, en bereikt 2.09x bij 95.7% kwaliteitsbehoud—terwijl het consistent beter presteert dan generatie met alleen de drafter met meer dan +17%. Het framework is trainingsvrij, vereist geen architectuurwijzigingen en kan naadloos worden geïntegreerd in bestaande autoregressieve videogeneratiepijplijnen.

English

Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.

Speculatief decoderen voor autoregressieve videogeneratie

Speculative Decoding for Autoregressive Video Generation

Samenvatting

Support