Mobius: Generación de Vídeos en Bucle Continuo a partir de Texto mediante Cambios en el Espacio Latente
Mobius: Text to Seamless Looping Video Generation via Latent Shift
February 27, 2025
Autores: Xiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao
cs.AI
Resumen
Presentamos Mobius, un método novedoso para generar videos en bucle perfectamente continuos a partir de descripciones de texto directamente, sin necesidad de anotaciones por parte del usuario, creando así nuevos materiales visuales para presentaciones multimedia. Nuestro método reutiliza el modelo preentrenado de difusión latente de video para generar videos en bucle a partir de indicaciones de texto sin necesidad de entrenamiento adicional. Durante la inferencia, primero construimos un ciclo latente conectando el ruido inicial y final de los videos. Dado que la consistencia temporal puede mantenerse mediante el contexto del modelo de difusión de video, realizamos un desruido latente de múltiples fotogramas desplazando gradualmente el latente del primer fotograma hacia el final en cada paso. Como resultado, el contexto de desruido varía en cada paso mientras se mantiene la consistencia durante todo el proceso de inferencia. Además, el ciclo latente en nuestro método puede tener cualquier duración. Esto extiende nuestro enfoque de desplazamiento latente para generar videos en bucle perfectamente continuos más allá del alcance del contexto del modelo de difusión de video. A diferencia de los cinemagraphs anteriores, el método propuesto no requiere una imagen como apariencia, lo que limitaría los movimientos de los resultados generados. En cambio, nuestro método puede producir movimientos más dinámicos y una mejor calidad visual. Realizamos múltiples experimentos y comparaciones para verificar la eficacia del método propuesto, demostrando su eficacia en diferentes escenarios. Todo el código estará disponible públicamente.
English
We present Mobius, a novel method to generate seamlessly looping videos from
text descriptions directly without any user annotations, thereby creating new
visual materials for the multi-media presentation. Our method repurposes the
pre-trained video latent diffusion model for generating looping videos from
text prompts without any training. During inference, we first construct a
latent cycle by connecting the starting and ending noise of the videos. Given
that the temporal consistency can be maintained by the context of the video
diffusion model, we perform multi-frame latent denoising by gradually shifting
the first-frame latent to the end in each step. As a result, the denoising
context varies in each step while maintaining consistency throughout the
inference process. Moreover, the latent cycle in our method can be of any
length. This extends our latent-shifting approach to generate seamless looping
videos beyond the scope of the video diffusion model's context. Unlike previous
cinemagraphs, the proposed method does not require an image as appearance,
which will restrict the motions of the generated results. Instead, our method
can produce more dynamic motion and better visual quality. We conduct multiple
experiments and comparisons to verify the effectiveness of the proposed method,
demonstrating its efficacy in different scenarios. All the code will be made
available.Summary
AI-Generated Summary