Decodagem Especulativa para Geração Autoregressiva de Vídeo
Speculative Decoding for Autoregressive Video Generation
April 19, 2026
Autores: Yuezhou Hu, Jintao Zhang
cs.AI
Resumo
A difusão autoregressiva de vídeo está emergindo como um paradigma promissor para a síntese de vídeo em streaming, com a destilação de etapas servindo como o principal meio de acelerar a inferência. Se a decodificação especulativa, a estratégia de aceleração dominante para modelos de linguagem grandes, pode ser efetivamente adaptada para a geração autoregressiva de vídeo permanece uma questão em aberto, porque blocos de vídeo são tensores espaço-temporais contínuos sem distribuição em nível de token para amostragem de rejeição exata. Apresentamos o SDVG, que introduz a decodificação especulativa na difusão autoregressiva de vídeo baseada em blocos, substituindo a verificação de token por um roteador de qualidade de imagem. Um rascunhador de 1.3B propõe blocos candidatos via quatro etapas de remoção de ruído; cada bloco é decodificado por VAE e pontuado pelo ImageReward usando agregação do pior quadro - tomando a recompensa mínima por quadro para capturar artefatos de quadro único que a média mascararia. Blocos com pontuação acima de um limiar fixo τ são aceitos no cache KV do alvo de 14B; o restante é regenerado pelo alvo. Duas escolhas de projeto adicionais mostram-se críticas: o primeiro bloco é sempre forçadamente rejeitado para ancorar a composição da cena, e τ serve como um único botão que traça uma fronteira de Pareto qualidade-velocidade suave. Em 1003 prompts do MovieGenVideoBench (832x480), o SDVG retém 98,1% da qualidade VisionReward do modo apenas-alvo (0,0773 vs. 0,0788) com uma aceleração de 1,59x usando τ=-0,7, e atinge 2,09x com 95,7% de retenção de qualidade - enquanto supera consistentemente a geração apenas por rascunho em mais de +17%. A estrutura é livre de treinamento, não requer alterações arquiteturais e pode ser integrada perfeitamente em pipelines existentes de geração autoregressiva de vídeo.
English
Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.