Décodage Spéculatif pour la Génération Vidéo Autoregressive

Résumé

La diffusion vidéo autorégressive émerge comme un paradigme prometteur pour la synthèse de vidéos en flux continu, la distillation d'étapes servant de principal moyen d'accélération de l'inférence. La question de savoir si le décodage spéculatif, la stratégie d'accélération dominante pour les grands modèles de langage, peut être efficacement adapté à la génération vidéo autorégressive reste ouverte, car les blocs vidéo sont des tenseurs spatio-temporels continus sans distribution au niveau des tokens permettant un échantillonnage de rejet exact. Nous présentons SDVG, qui introduit le décodage spéculatif dans la diffusion vidéo autorégressive basée sur des blocs en remplaçant la vérification de tokens par un routeur de qualité d'image. Un ébaucheur de 1,3 milliard de paramètres propose des blocs candidats via quatre étapes de débruitage ; chaque bloc est décodé par VAE et évalué par ImageReward en utilisant une agrégation par pire image – prenant la récompense minimale par image pour détecter les artefacts sur une seule image que la moyenne masquerait. Les blocs dont le score dépasse un seuil fixe tau sont acceptés dans le cache KV de la cible de 14B ; les autres sont régénérés par la cible. Deux choix de conception supplémentaires s'avèrent critiques : le premier bloc est toujours forcément rejeté pour ancrer la composition de la scène, et tau sert de paramètre unique qui trace une frontière de Pareto qualité-vitesse fluide. Sur 1003 prompts de MovieGenVideoBench (832x480), SDVG conserve 98,1 % de la qualité VisionReward en mode cible uniquement (0,0773 contre 0,0788) avec une accélération de 1,59x à tau=-0,7, et atteint 2,09x avec une rétention de qualité de 95,7 % – tout en surpassant constamment la génération par ébauche seule de plus de +17 %. Le framework ne nécessite aucun entraînement, aucune modification architecturale et peut être intégré de manière transparente dans les pipelines existants de génération vidéo autorégressive.

English

Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.

Décodage Spéculatif pour la Génération Vidéo Autoregressive

Speculative Decoding for Autoregressive Video Generation

Résumé

Support