ChatPaper.aiChatPaper

Mobius : Génération de vidéos en boucle fluide à partir de texte via un décalage latent

Mobius: Text to Seamless Looping Video Generation via Latent Shift

February 27, 2025
Auteurs: Xiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao
cs.AI

Résumé

Nous présentons Mobius, une méthode novatrice pour générer directement des vidéos en boucle fluide à partir de descriptions textuelles, sans aucune annotation utilisateur, créant ainsi de nouveaux matériaux visuels pour les présentations multimédias. Notre méthode réutilise le modèle de diffusion latente vidéo pré-entraîné pour générer des vidéos en boucle à partir de prompts textuels sans nécessiter d'apprentissage supplémentaire. Lors de l'inférence, nous construisons d'abord un cycle latent en connectant le bruit de départ et de fin des vidéos. Étant donné que la cohérence temporelle peut être maintenue par le contexte du modèle de diffusion vidéo, nous effectuons un débruitage latent multi-images en décalant progressivement la latence de la première image vers la fin à chaque étape. En conséquence, le contexte de débruitage varie à chaque étape tout en maintenant la cohérence tout au long du processus d'inférence. De plus, le cycle latent dans notre méthode peut être de n'importe quelle longueur. Cela étend notre approche de décalage latent pour générer des vidéos en boucle fluide au-delà de la portée du contexte du modèle de diffusion vidéo. Contrairement aux cinémagraphies précédentes, la méthode proposée ne nécessite pas une image comme apparence, ce qui limiterait les mouvements des résultats générés. Au lieu de cela, notre méthode peut produire des mouvements plus dynamiques et une meilleure qualité visuelle. Nous menons plusieurs expériences et comparaisons pour vérifier l'efficacité de la méthode proposée, démontrant son efficacité dans différents scénarios. Tout le code sera rendu disponible.
English
We present Mobius, a novel method to generate seamlessly looping videos from text descriptions directly without any user annotations, thereby creating new visual materials for the multi-media presentation. Our method repurposes the pre-trained video latent diffusion model for generating looping videos from text prompts without any training. During inference, we first construct a latent cycle by connecting the starting and ending noise of the videos. Given that the temporal consistency can be maintained by the context of the video diffusion model, we perform multi-frame latent denoising by gradually shifting the first-frame latent to the end in each step. As a result, the denoising context varies in each step while maintaining consistency throughout the inference process. Moreover, the latent cycle in our method can be of any length. This extends our latent-shifting approach to generate seamless looping videos beyond the scope of the video diffusion model's context. Unlike previous cinemagraphs, the proposed method does not require an image as appearance, which will restrict the motions of the generated results. Instead, our method can produce more dynamic motion and better visual quality. We conduct multiple experiments and comparisons to verify the effectiveness of the proposed method, demonstrating its efficacy in different scenarios. All the code will be made available.

Summary

AI-Generated Summary

PDF192February 28, 2025