Decodifica Speculativa per la Generazione Autoregressiva di Video

Abstract

La diffusione video autoregressiva si sta affermando come un paradigma promettente per la sintesi di video in streaming, con la distillazione dei passi che funge da mezzo principale per accelerare l'inferenza. Resta una questione aperta se il decoding speculativo, la strategia di accelerazione dominante per i grandi modelli linguistici, possa essere efficacemente adattato alla generazione video autoregressiva, poiché i blocchi video sono tensori spazio-temporali continui senza una distribuzione a livello di token per un campionamento di rigetto esatto. Introduciamo SDVG, che porta il decoding speculativo alla diffusione video autoregressiva basata su blocchi sostituendo la verifica dei token con un router di qualità dell'immagine. Un modello "drafter" da 1.3B propone blocchi candidati tramite quattro passi di denoising; ogni blocco viene decodificato tramite VAE e valutato da ImageReward utilizzando un'aggregazione del frame peggiore—prendendo la ricompensa minima per frame per catturare artefatti su frame singoli che una media maschererebbe. I blocchi con punteggio superiore a una soglia fissa tau vengono accettati nella KV cache del modello "target" da 14B; gli altri vengono rigenerati dal target. Due scelte progettuali aggiuntive si rivelano cruciali: il primo blocco viene sempre forzatamente rigettato per ancorare la composizione della scena, e tau funge da unico parametro che traccia una frontiera di Pareto qualità-velocità uniforme. Su 1003 prompt di MovieGenVideoBench (832x480), SDVG mantiene il 98.1% della qualità VisionReward del solo target (0.0773 vs. 0.0788) con un accelerazione di 1.59x a tau=-0.7, e raggiunge 2.09x con una ritenzione di qualità del 95.7%—superando costantemente la generazione con il solo drafter di oltre +17%. Il framework non richiede training, non necessita di modifiche architetturali e può essere integrato senza soluzione di continuità nelle pipeline esistenti di generazione video autoregressiva.

English

Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.

Decodifica Speculativa per la Generazione Autoregressiva di Video

Speculative Decoding for Autoregressive Video Generation

Abstract

Support