ViBiDSampler: Mejorando la Interpolación de Video Utilizando un Muestreador de Difusión Bidireccional
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler
October 8, 2024
Autores: Serin Yang, Taesung Kwon, Jong Chul Ye
cs.AI
Resumen
El reciente progreso en los modelos de difusión de texto a video (T2V) y de imagen a video (I2V) a gran escala ha mejorado significativamente la generación de videos, especialmente en términos de interpolación de fotogramas clave. Sin embargo, los actuales modelos de difusión de imagen a video, aunque son potentes en la generación de videos a partir de un solo fotograma condicionante, necesitan adaptarse para la generación condicionada de dos fotogramas (inicio y fin), lo cual es esencial para una interpolación acotada efectiva. Desafortunadamente, los enfoques existentes que fusionan caminos temporalmente hacia adelante y hacia atrás en paralelo a menudo sufren de problemas fuera del conjunto, lo que resulta en artefactos o requiere múltiples pasos iterativos de re-ruido. En este trabajo, presentamos una novedosa estrategia de muestreo bidireccional para abordar estos problemas fuera del conjunto sin necesidad de extensos re-ruidos o ajustes finos. Nuestro método emplea muestreo secuencial a lo largo de ambos caminos, hacia adelante y hacia atrás, condicionados en los fotogramas de inicio y fin, respectivamente, asegurando una generación más coherente y en el conjunto de los fotogramas intermedios. Además, incorporamos técnicas avanzadas de orientación, CFG++ y DDS, para mejorar aún más el proceso de interpolación. Al integrar estos elementos, nuestro método logra un rendimiento de vanguardia, generando eficientemente videos de alta calidad y suaves entre fotogramas clave. En una sola GPU 3090, nuestro método puede interpolar 25 fotogramas a una resolución de 1024 x 576 en solo 195 segundos, estableciéndose como una solución líder para la interpolación de fotogramas clave.
English
Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V)
diffusion models has greatly enhanced video generation, especially in terms of
keyframe interpolation. However, current image-to-video diffusion models, while
powerful in generating videos from a single conditioning frame, need adaptation
for two-frame (start & end) conditioned generation, which is essential for
effective bounded interpolation. Unfortunately, existing approaches that fuse
temporally forward and backward paths in parallel often suffer from
off-manifold issues, leading to artifacts or requiring multiple iterative
re-noising steps. In this work, we introduce a novel, bidirectional sampling
strategy to address these off-manifold issues without requiring extensive
re-noising or fine-tuning. Our method employs sequential sampling along both
forward and backward paths, conditioned on the start and end frames,
respectively, ensuring more coherent and on-manifold generation of intermediate
frames. Additionally, we incorporate advanced guidance techniques, CFG++ and
DDS, to further enhance the interpolation process. By integrating these, our
method achieves state-of-the-art performance, efficiently generating
high-quality, smooth videos between keyframes. On a single 3090 GPU, our method
can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds,
establishing it as a leading solution for keyframe interpolation.Summary
AI-Generated Summary