Mobius: 潜在空間シフトによるテキストからシームレスループ動画生成
Mobius: Text to Seamless Looping Video Generation via Latent Shift
February 27, 2025
著者: Xiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao
cs.AI
要旨
本研究では、Mobiusという新しい手法を提案します。この手法は、ユーザーの注釈を一切必要とせずに、テキスト記述からシームレスにループする動画を直接生成し、マルチメディアプレゼンテーションのための新しい視覚素材を創出します。私たちの手法は、事前学習済みのビデオ潜在拡散モデルを再利用し、テキストプロンプトからループ動画を生成しますが、追加の学習は必要ありません。推論時には、まず動画の開始ノイズと終了ノイズを接続することで潜在サイクルを構築します。ビデオ拡散モデルの文脈によって時間的一貫性が維持されることを考慮し、各ステップで最初のフレームの潜在を徐々に終端にシフトさせながら、複数フレームの潜在ノイズ除去を実行します。その結果、ノイズ除去の文脈は各ステップで変化しますが、推論プロセス全体を通して一貫性が維持されます。さらに、私たちの手法における潜在サイクルは任意の長さにすることが可能です。これにより、ビデオ拡散モデルの文脈の範囲を超えて、シームレスなループ動画を生成するための潜在シフト手法を拡張できます。従来のシネマグラフとは異なり、提案手法は外観として画像を必要としないため、生成結果の動きが制限されることはありません。代わりに、私たちの手法はよりダイナミックな動きと優れた視覚品質を実現できます。提案手法の有効性を検証するために、複数の実験と比較を行い、さまざまなシナリオでの効力を実証しました。すべてのコードを公開する予定です。
English
We present Mobius, a novel method to generate seamlessly looping videos from
text descriptions directly without any user annotations, thereby creating new
visual materials for the multi-media presentation. Our method repurposes the
pre-trained video latent diffusion model for generating looping videos from
text prompts without any training. During inference, we first construct a
latent cycle by connecting the starting and ending noise of the videos. Given
that the temporal consistency can be maintained by the context of the video
diffusion model, we perform multi-frame latent denoising by gradually shifting
the first-frame latent to the end in each step. As a result, the denoising
context varies in each step while maintaining consistency throughout the
inference process. Moreover, the latent cycle in our method can be of any
length. This extends our latent-shifting approach to generate seamless looping
videos beyond the scope of the video diffusion model's context. Unlike previous
cinemagraphs, the proposed method does not require an image as appearance,
which will restrict the motions of the generated results. Instead, our method
can produce more dynamic motion and better visual quality. We conduct multiple
experiments and comparisons to verify the effectiveness of the proposed method,
demonstrating its efficacy in different scenarios. All the code will be made
available.Summary
AI-Generated Summary