ViBiDSampler: Mejorando la Interpolación de Video Utilizando un Muestreador de Difusión Bidireccional

Resumen

El reciente progreso en los modelos de difusión de texto a video (T2V) y de imagen a video (I2V) a gran escala ha mejorado significativamente la generación de videos, especialmente en términos de interpolación de fotogramas clave. Sin embargo, los actuales modelos de difusión de imagen a video, aunque son potentes en la generación de videos a partir de un solo fotograma condicionante, necesitan adaptarse para la generación condicionada de dos fotogramas (inicio y fin), lo cual es esencial para una interpolación acotada efectiva. Desafortunadamente, los enfoques existentes que fusionan caminos temporalmente hacia adelante y hacia atrás en paralelo a menudo sufren de problemas fuera del conjunto, lo que resulta en artefactos o requiere múltiples pasos iterativos de re-ruido. En este trabajo, presentamos una novedosa estrategia de muestreo bidireccional para abordar estos problemas fuera del conjunto sin necesidad de extensos re-ruidos o ajustes finos. Nuestro método emplea muestreo secuencial a lo largo de ambos caminos, hacia adelante y hacia atrás, condicionados en los fotogramas de inicio y fin, respectivamente, asegurando una generación más coherente y en el conjunto de los fotogramas intermedios. Además, incorporamos técnicas avanzadas de orientación, CFG++ y DDS, para mejorar aún más el proceso de interpolación. Al integrar estos elementos, nuestro método logra un rendimiento de vanguardia, generando eficientemente videos de alta calidad y suaves entre fotogramas clave. En una sola GPU 3090, nuestro método puede interpolar 25 fotogramas a una resolución de 1024 x 576 en solo 195 segundos, estableciéndose como una solución líder para la interpolación de fotogramas clave.

English

Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V) diffusion models has greatly enhanced video generation, especially in terms of keyframe interpolation. However, current image-to-video diffusion models, while powerful in generating videos from a single conditioning frame, need adaptation for two-frame (start & end) conditioned generation, which is essential for effective bounded interpolation. Unfortunately, existing approaches that fuse temporally forward and backward paths in parallel often suffer from off-manifold issues, leading to artifacts or requiring multiple iterative re-noising steps. In this work, we introduce a novel, bidirectional sampling strategy to address these off-manifold issues without requiring extensive re-noising or fine-tuning. Our method employs sequential sampling along both forward and backward paths, conditioned on the start and end frames, respectively, ensuring more coherent and on-manifold generation of intermediate frames. Additionally, we incorporate advanced guidance techniques, CFG++ and DDS, to further enhance the interpolation process. By integrating these, our method achieves state-of-the-art performance, efficiently generating high-quality, smooth videos between keyframes. On a single 3090 GPU, our method can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds, establishing it as a leading solution for keyframe interpolation.

ViBiDSampler: Mejorando la Interpolación de Video Utilizando un Muestreador de Difusión Bidireccional

ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler

Resumen

Support