Mobius : Génération de vidéos en boucle fluide à partir de texte via un décalage latent
Mobius: Text to Seamless Looping Video Generation via Latent Shift
February 27, 2025
Auteurs: Xiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao
cs.AI
Résumé
Nous présentons Mobius, une méthode novatrice pour générer directement des vidéos en boucle fluide à partir de descriptions textuelles, sans aucune annotation utilisateur, créant ainsi de nouveaux matériaux visuels pour les présentations multimédias. Notre méthode réutilise le modèle de diffusion latente vidéo pré-entraîné pour générer des vidéos en boucle à partir de prompts textuels sans nécessiter d'apprentissage supplémentaire. Lors de l'inférence, nous construisons d'abord un cycle latent en connectant le bruit de départ et de fin des vidéos. Étant donné que la cohérence temporelle peut être maintenue par le contexte du modèle de diffusion vidéo, nous effectuons un débruitage latent multi-images en décalant progressivement la latence de la première image vers la fin à chaque étape. En conséquence, le contexte de débruitage varie à chaque étape tout en maintenant la cohérence tout au long du processus d'inférence. De plus, le cycle latent dans notre méthode peut être de n'importe quelle longueur. Cela étend notre approche de décalage latent pour générer des vidéos en boucle fluide au-delà de la portée du contexte du modèle de diffusion vidéo. Contrairement aux cinémagraphies précédentes, la méthode proposée ne nécessite pas une image comme apparence, ce qui limiterait les mouvements des résultats générés. Au lieu de cela, notre méthode peut produire des mouvements plus dynamiques et une meilleure qualité visuelle. Nous menons plusieurs expériences et comparaisons pour vérifier l'efficacité de la méthode proposée, démontrant son efficacité dans différents scénarios. Tout le code sera rendu disponible.
English
We present Mobius, a novel method to generate seamlessly looping videos from
text descriptions directly without any user annotations, thereby creating new
visual materials for the multi-media presentation. Our method repurposes the
pre-trained video latent diffusion model for generating looping videos from
text prompts without any training. During inference, we first construct a
latent cycle by connecting the starting and ending noise of the videos. Given
that the temporal consistency can be maintained by the context of the video
diffusion model, we perform multi-frame latent denoising by gradually shifting
the first-frame latent to the end in each step. As a result, the denoising
context varies in each step while maintaining consistency throughout the
inference process. Moreover, the latent cycle in our method can be of any
length. This extends our latent-shifting approach to generate seamless looping
videos beyond the scope of the video diffusion model's context. Unlike previous
cinemagraphs, the proposed method does not require an image as appearance,
which will restrict the motions of the generated results. Instead, our method
can produce more dynamic motion and better visual quality. We conduct multiple
experiments and comparisons to verify the effectiveness of the proposed method,
demonstrating its efficacy in different scenarios. All the code will be made
available.Summary
AI-Generated Summary