Decodificación Especulativa para la Generación Autoregresiva de Video

Resumen

La difusión autoregresiva de video está surgiendo como un paradigma prometedor para la síntesis de video en streaming, utilizando la destilación de pasos como principal medio para acelerar la inferencia. Si la decodificación especulativa, la estrategia de aceleración dominante para los modelos de lenguaje grande, puede adaptarse eficazmente a la generación autoregresiva de video sigue siendo una pregunta abierta, debido a que los bloques de video son tensores espacio-temporales continuos sin una distribución a nivel de token para un muestreo por rechazo exacto. Presentamos SDVG, que incorpora la decodificación especulativa a la difusión de video autoregresiva basada en bloques reemplazando la verificación de tokens con un enrutador de calidad de imagen. Un borrador de 1.3B propone bloques candidatos mediante cuatro pasos de eliminación de ruido; cada bloque se decodifica con VAE y se puntúa mediante ImageReward usando una agregación del peor fotograma—tomando la recompensa mínima por fotograma para detectar artefactos de fotograma único que un promedio enmascararía. Los bloques que superan un umbral fijo tau se aceptan en la caché KV del modelo objetivo de 14B; el resto son regenerados por el objetivo. Dos decisiones de diseño adicionales resultan críticas: el primer bloque se rechaza forzosamente siempre para anclar la composición de la escena, y tau funciona como un único control que traza una frontera de Pareto calidad-velocidad suave. En 1003 prompts de MovieGenVideoBench (832x480), SDVG retiene el 98.1% de la calidad VisionReward del modelo objetivo solo (0.0773 vs. 0.0788) con una aceleración de 1.59x usando tau=-0.7, y alcanza 2.09x con una retención de calidad del 95.7%—superando consistentemente la generación solo con borrador en más de un +17%. El marco no requiere entrenamiento, no necesita cambios arquitectónicos y puede integrarse perfectamente en las canalizaciones existentes de generación autoregresiva de video.

English

Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.

Decodificación Especulativa para la Generación Autoregresiva de Video

Speculative Decoding for Autoregressive Video Generation

Resumen

Support