MagicTime: 変態シミュレータとしてのタイムラプス動画生成モデル
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
April 7, 2024
著者: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI
要旨
テキストからビデオ生成(T2V)の最近の進展は、テキスト記述から高品質な一般的なビデオを合成する際に顕著な成功を収めています。T2Vにおいて大きく見過ごされている問題は、既存のモデルが現実世界の物理的知識を十分にエンコードしていないため、生成されるビデオは動きが限定的でバリエーションに乏しい傾向があることです。本論文では、タイムラプスビデオから現実世界の物理的知識を学習し、変態生成を実現するメタモルフィック・タイムラプスビデオ生成モデル「MagicTime」を提案します。まず、空間的および時間的トレーニングを分離し、変態ビデオからより多くの物理的知識をエンコードし、事前学習済みのT2Vモデルを変態ビデオ生成に変換する「MagicAdapter」スキームを設計します。次に、一般的なビデオよりも広範な変化範囲と劇的なオブジェクト変態プロセスをカバーするメタモルフィック・タイムラプスビデオに適応する「Dynamic Frames Extraction」戦略を導入します。これにより、より多くの物理的知識が具現化されます。最後に、変態ビデオプロンプトの理解を向上させる「Magic Text-Encoder」を導入します。さらに、変態ビデオ生成能力を引き出すために特別にキュレーションされたタイムラプスビデオ-テキストデータセット「ChronoMagic」を作成します。広範な実験により、MagicTimeが高品質でダイナミックな変態ビデオを生成する際の優位性と有効性が実証され、タイムラプスビデオ生成が物理世界の変態シミュレータを構築するための有望な道筋であることが示唆されています。
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable
success in synthesizing high-quality general videos from textual descriptions.
A largely overlooked problem in T2V is that existing models have not adequately
encoded physical knowledge of the real world, thus generated videos tend to
have limited motion and poor variations. In this paper, we propose
MagicTime, a metamorphic time-lapse video generation model, which
learns real-world physics knowledge from time-lapse videos and implements
metamorphic generation. First, we design a MagicAdapter scheme to decouple
spatial and temporal training, encode more physical knowledge from metamorphic
videos, and transform pre-trained T2V models to generate metamorphic videos.
Second, we introduce a Dynamic Frames Extraction strategy to adapt to
metamorphic time-lapse videos, which have a wider variation range and cover
dramatic object metamorphic processes, thus embodying more physical knowledge
than general videos. Finally, we introduce a Magic Text-Encoder to improve the
understanding of metamorphic video prompts. Furthermore, we create a time-lapse
video-text dataset called ChronoMagic, specifically curated to unlock
the metamorphic video generation ability. Extensive experiments demonstrate the
superiority and effectiveness of MagicTime for generating high-quality and
dynamic metamorphic videos, suggesting time-lapse video generation is a
promising path toward building metamorphic simulators of the physical world.Summary
AI-Generated Summary