Mobius: Geração de Vídeo em Looping Contínuo a partir de Texto via Deslocamento Latente
Mobius: Text to Seamless Looping Video Generation via Latent Shift
February 27, 2025
Autores: Xiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao
cs.AI
Resumo
Apresentamos o Mobius, um método inovador para gerar vídeos em loop de forma contínua a partir de descrições de texto diretamente, sem a necessidade de anotações do usuário, criando assim novos materiais visuais para apresentações multimídia. Nosso método reutiliza o modelo de difusão latente de vídeo pré-treinado para gerar vídeos em loop a partir de prompts de texto sem necessidade de treinamento. Durante a inferência, primeiro construímos um ciclo latente conectando o ruído inicial e final dos vídeos. Dado que a consistência temporal pode ser mantida pelo contexto do modelo de difusão de vídeo, realizamos uma desnoização latente de vários quadros, deslocando gradualmente o latente do primeiro quadro para o final a cada passo. Como resultado, o contexto de desnoização varia em cada passo, mantendo a consistência ao longo do processo de inferência. Além disso, o ciclo latente em nosso método pode ter qualquer comprimento. Isso amplia nossa abordagem de deslocamento latente para gerar vídeos em loop contínuo além do escopo do contexto do modelo de difusão de vídeo. Ao contrário de cinemagrafias anteriores, o método proposto não requer uma imagem como aparência, o que restringiria os movimentos dos resultados gerados. Em vez disso, nosso método pode produzir movimentos mais dinâmicos e melhor qualidade visual. Realizamos múltiplos experimentos e comparações para verificar a eficácia do método proposto, demonstrando sua eficácia em diferentes cenários. Todo o código estará disponível.
English
We present Mobius, a novel method to generate seamlessly looping videos from
text descriptions directly without any user annotations, thereby creating new
visual materials for the multi-media presentation. Our method repurposes the
pre-trained video latent diffusion model for generating looping videos from
text prompts without any training. During inference, we first construct a
latent cycle by connecting the starting and ending noise of the videos. Given
that the temporal consistency can be maintained by the context of the video
diffusion model, we perform multi-frame latent denoising by gradually shifting
the first-frame latent to the end in each step. As a result, the denoising
context varies in each step while maintaining consistency throughout the
inference process. Moreover, the latent cycle in our method can be of any
length. This extends our latent-shifting approach to generate seamless looping
videos beyond the scope of the video diffusion model's context. Unlike previous
cinemagraphs, the proposed method does not require an image as appearance,
which will restrict the motions of the generated results. Instead, our method
can produce more dynamic motion and better visual quality. We conduct multiple
experiments and comparisons to verify the effectiveness of the proposed method,
demonstrating its efficacy in different scenarios. All the code will be made
available.