Mobius: Geração de Vídeo em Looping Contínuo a partir de Texto via Deslocamento Latente

Resumo

Apresentamos o Mobius, um método inovador para gerar vídeos em loop de forma contínua a partir de descrições de texto diretamente, sem a necessidade de anotações do usuário, criando assim novos materiais visuais para apresentações multimídia. Nosso método reutiliza o modelo de difusão latente de vídeo pré-treinado para gerar vídeos em loop a partir de prompts de texto sem necessidade de treinamento. Durante a inferência, primeiro construímos um ciclo latente conectando o ruído inicial e final dos vídeos. Dado que a consistência temporal pode ser mantida pelo contexto do modelo de difusão de vídeo, realizamos uma desnoização latente de vários quadros, deslocando gradualmente o latente do primeiro quadro para o final a cada passo. Como resultado, o contexto de desnoização varia em cada passo, mantendo a consistência ao longo do processo de inferência. Além disso, o ciclo latente em nosso método pode ter qualquer comprimento. Isso amplia nossa abordagem de deslocamento latente para gerar vídeos em loop contínuo além do escopo do contexto do modelo de difusão de vídeo. Ao contrário de cinemagrafias anteriores, o método proposto não requer uma imagem como aparência, o que restringiria os movimentos dos resultados gerados. Em vez disso, nosso método pode produzir movimentos mais dinâmicos e melhor qualidade visual. Realizamos múltiplos experimentos e comparações para verificar a eficácia do método proposto, demonstrando sua eficácia em diferentes cenários. Todo o código estará disponível.

English

We present Mobius, a novel method to generate seamlessly looping videos from text descriptions directly without any user annotations, thereby creating new visual materials for the multi-media presentation. Our method repurposes the pre-trained video latent diffusion model for generating looping videos from text prompts without any training. During inference, we first construct a latent cycle by connecting the starting and ending noise of the videos. Given that the temporal consistency can be maintained by the context of the video diffusion model, we perform multi-frame latent denoising by gradually shifting the first-frame latent to the end in each step. As a result, the denoising context varies in each step while maintaining consistency throughout the inference process. Moreover, the latent cycle in our method can be of any length. This extends our latent-shifting approach to generate seamless looping videos beyond the scope of the video diffusion model's context. Unlike previous cinemagraphs, the proposed method does not require an image as appearance, which will restrict the motions of the generated results. Instead, our method can produce more dynamic motion and better visual quality. We conduct multiple experiments and comparisons to verify the effectiveness of the proposed method, demonstrating its efficacy in different scenarios. All the code will be made available.

Mobius: Geração de Vídeo em Looping Contínuo a partir de Texto via Deslocamento Latente

Mobius: Text to Seamless Looping Video Generation via Latent Shift

Resumo

Support