MagicTime: Zeitraffervideo-Generierungsmodelle als metamorphe Simulatoren
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
April 7, 2024
Autoren: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte in der Text-zu-Video-Erzeugung (T2V) bemerkenswerte Erfolge bei der Synthese hochwertiger allgemeiner Videos aus textuellen Beschreibungen erzielt. Ein weitgehend übersehenes Problem bei T2V besteht darin, dass bestehende Modelle die physikalischen Kenntnisse der realen Welt nicht ausreichend codiert haben, wodurch die erzeugten Videos tendenziell über begrenzte Bewegungen und geringe Variationen verfügen. In diesem Artikel schlagen wir MagicTime vor, ein metamorphes Zeitraffer-Videoerzeugungsmodell, das reale physikalische Kenntnisse aus Zeitraffer-Videos lernt und metamorphe Erzeugung implementiert. Zunächst entwerfen wir ein MagicAdapter-Schema, um das räumliche und zeitliche Training zu entkoppeln, mehr physikalisches Wissen aus metamorphen Videos zu codieren und vortrainierte T2V-Modelle zu transformieren, um metamorphe Videos zu erzeugen. Zweitens führen wir eine Dynamische Frames-Extraktionsstrategie ein, um sich an metamorphe Zeitraffer-Videos anzupassen, die eine breitere Variationsspanne aufweisen und dramatische Objektmetamorphoseprozesse abdecken, wodurch mehr physikalisches Wissen als allgemeine Videos verkörpert wird. Schließlich stellen wir einen Magic Text-Encoder vor, um das Verständnis von metamorphen Videoanweisungen zu verbessern. Darüber hinaus erstellen wir einen Zeitraffer-Video-Text-Datensatz namens ChronoMagic, der speziell zusammengestellt wurde, um die Fähigkeit zur Erzeugung metamorpher Videos freizuschalten. Umfangreiche Experimente zeigen die Überlegenheit und Wirksamkeit von MagicTime bei der Erzeugung hochwertiger und dynamischer metamorpher Videos auf und legen nahe, dass die Zeitraffer-Videoerzeugung ein vielversprechender Weg zur Entwicklung metamorpher Simulatoren der physischen Welt ist.
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable
success in synthesizing high-quality general videos from textual descriptions.
A largely overlooked problem in T2V is that existing models have not adequately
encoded physical knowledge of the real world, thus generated videos tend to
have limited motion and poor variations. In this paper, we propose
MagicTime, a metamorphic time-lapse video generation model, which
learns real-world physics knowledge from time-lapse videos and implements
metamorphic generation. First, we design a MagicAdapter scheme to decouple
spatial and temporal training, encode more physical knowledge from metamorphic
videos, and transform pre-trained T2V models to generate metamorphic videos.
Second, we introduce a Dynamic Frames Extraction strategy to adapt to
metamorphic time-lapse videos, which have a wider variation range and cover
dramatic object metamorphic processes, thus embodying more physical knowledge
than general videos. Finally, we introduce a Magic Text-Encoder to improve the
understanding of metamorphic video prompts. Furthermore, we create a time-lapse
video-text dataset called ChronoMagic, specifically curated to unlock
the metamorphic video generation ability. Extensive experiments demonstrate the
superiority and effectiveness of MagicTime for generating high-quality and
dynamic metamorphic videos, suggesting time-lapse video generation is a
promising path toward building metamorphic simulators of the physical world.Summary
AI-Generated Summary