Generación Autoregresiva de Video en Streaming mediante Destilación Diagonal

Resumen

Los grandes modelos de difusión preentrenados han mejorado significativamente la calidad de los videos generados, pero su uso en transmisiones en tiempo real sigue siendo limitado. Los modelos autorregresivos ofrecen un marco natural para la síntesis secuencial de fotogramas, pero requieren una gran capacidad computacional para lograr alta fidelidad. La destilación por difusión puede comprimir estos modelos en variantes eficientes de pocos pasos, pero los enfoques de destilación de video existentes adaptan principalmente métodos específicos para imágenes que descuidan las dependencias temporales. Estas técnicas suelen sobresalir en generación de imágenes pero tienen un rendimiento inferior en síntesis de video, mostrando coherencia de movimiento reducida, acumulación de errores en secuencias largas y un equilibrio entre latencia y calidad. Identificamos dos factores que causan estas limitaciones: la utilización insuficiente del contexto temporal durante la reducción de pasos y la predicción implícita de los niveles de ruido subsecuentes en la predicción de fragmentos siguientes (es decir, sesgo de exposición). Para abordar estos problemas, proponemos Diagonal Distillation, que opera de forma ortogonal a los enfoques existentes y explota mejor la información temporal tanto en fragmentos de video como en pasos de eliminación de ruido. Elemento central de nuestro enfoque es una estrategia de generación asimétrica: más pasos al principio, menos pasos después. Este diseño permite que los fragmentos posteriores hereden información de apariencia rica de los fragmentos iniciales procesados exhaustivamente, mientras utilizan fragmentos parcialmente desruidosados como entradas condicionales para la síntesis subsecuente. Al alinear la predicción implícita de los niveles de ruido subsecuentes durante la generación de fragmentos con las condiciones reales de inferencia, nuestro enfoque mitiga la propagación de errores y reduce la sobresaturación en secuencias de largo alcance. Incorporamos además un modelado implícito de flujo óptico para preservar la calidad del movimiento bajo estrictas restricciones de pasos. Nuestro método genera un video de 5 segundos en 2.61 segundos (hasta 31 FPS), logrando una aceleración de 277.3x sobre el modelo no destilado.

English

Large pretrained diffusion models have significantly enhanced the quality of generated videos, and yet their use in real-time streaming remains limited. Autoregressive models offer a natural framework for sequential frame synthesis but require heavy computation to achieve high fidelity. Diffusion distillation can compress these models into efficient few-step variants, but existing video distillation approaches largely adapt image-specific methods that neglect temporal dependencies. These techniques often excel in image generation but underperform in video synthesis, exhibiting reduced motion coherence, error accumulation over long sequences, and a latency-quality trade-off. We identify two factors that result in these limitations: insufficient utilization of temporal context during step reduction and implicit prediction of subsequent noise levels in next-chunk prediction (i.e., exposure bias). To address these issues, we propose Diagonal Distillation, which operates orthogonally to existing approaches and better exploits temporal information across both video chunks and denoising steps. Central to our approach is an asymmetric generation strategy: more steps early, fewer steps later. This design allows later chunks to inherit rich appearance information from thoroughly processed early chunks, while using partially denoised chunks as conditional inputs for subsequent synthesis. By aligning the implicit prediction of subsequent noise levels during chunk generation with the actual inference conditions, our approach mitigates error propagation and reduces oversaturation in long-range sequences. We further incorporate implicit optical flow modeling to preserve motion quality under strict step constraints. Our method generates a 5-second video in 2.61 seconds (up to 31 FPS), achieving a 277.3x speedup over the undistilled model.

Generación Autoregresiva de Video en Streaming mediante Destilación Diagonal

Streaming Autoregressive Video Generation via Diagonal Distillation

Resumen

Support