Mobius: Generación de Vídeos en Bucle Continuo a partir de Texto mediante Cambios en el Espacio Latente

Resumen

Presentamos Mobius, un método novedoso para generar videos en bucle perfectamente continuos a partir de descripciones de texto directamente, sin necesidad de anotaciones por parte del usuario, creando así nuevos materiales visuales para presentaciones multimedia. Nuestro método reutiliza el modelo preentrenado de difusión latente de video para generar videos en bucle a partir de indicaciones de texto sin necesidad de entrenamiento adicional. Durante la inferencia, primero construimos un ciclo latente conectando el ruido inicial y final de los videos. Dado que la consistencia temporal puede mantenerse mediante el contexto del modelo de difusión de video, realizamos un desruido latente de múltiples fotogramas desplazando gradualmente el latente del primer fotograma hacia el final en cada paso. Como resultado, el contexto de desruido varía en cada paso mientras se mantiene la consistencia durante todo el proceso de inferencia. Además, el ciclo latente en nuestro método puede tener cualquier duración. Esto extiende nuestro enfoque de desplazamiento latente para generar videos en bucle perfectamente continuos más allá del alcance del contexto del modelo de difusión de video. A diferencia de los cinemagraphs anteriores, el método propuesto no requiere una imagen como apariencia, lo que limitaría los movimientos de los resultados generados. En cambio, nuestro método puede producir movimientos más dinámicos y una mejor calidad visual. Realizamos múltiples experimentos y comparaciones para verificar la eficacia del método propuesto, demostrando su eficacia en diferentes escenarios. Todo el código estará disponible públicamente.

English

We present Mobius, a novel method to generate seamlessly looping videos from text descriptions directly without any user annotations, thereby creating new visual materials for the multi-media presentation. Our method repurposes the pre-trained video latent diffusion model for generating looping videos from text prompts without any training. During inference, we first construct a latent cycle by connecting the starting and ending noise of the videos. Given that the temporal consistency can be maintained by the context of the video diffusion model, we perform multi-frame latent denoising by gradually shifting the first-frame latent to the end in each step. As a result, the denoising context varies in each step while maintaining consistency throughout the inference process. Moreover, the latent cycle in our method can be of any length. This extends our latent-shifting approach to generate seamless looping videos beyond the scope of the video diffusion model's context. Unlike previous cinemagraphs, the proposed method does not require an image as appearance, which will restrict the motions of the generated results. Instead, our method can produce more dynamic motion and better visual quality. We conduct multiple experiments and comparisons to verify the effectiveness of the proposed method, demonstrating its efficacy in different scenarios. All the code will be made available.

Mobius: Generación de Vídeos en Bucle Continuo a partir de Texto mediante Cambios en el Espacio Latente

Mobius: Text to Seamless Looping Video Generation via Latent Shift

Resumen

Support