MagicTime: Time-lapse Video Generatiemodellen als Metamorfe Simulatoren
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
April 7, 2024
Auteurs: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI
Samenvatting
Recente vooruitgang in Text-to-Video-generatie (T2V) heeft opmerkelijke successen geboekt bij het synthetiseren van hoogwaardige algemene video's op basis van tekstuele beschrijvingen. Een grotendeels over het hoofd gezien probleem in T2V is dat bestaande modellen onvoldoende fysieke kennis van de echte wereld hebben gecodeerd, waardoor gegenereerde video's vaak beperkte beweging en weinig variatie vertonen. In dit artikel stellen we MagicTime voor, een metamorf time-lapse videogeneratiemodel, dat kennis van de echte wereld leert uit time-lapse video's en metamorfe generatie implementeert. Ten eerste ontwerpen we een MagicAdapter-schema om ruimtelijke en temporele training te ontkoppelen, meer fysieke kennis te coderen uit metamorfe video's, en voorgetrainde T2V-modellen om te zetten om metamorfe video's te genereren. Ten tweede introduceren we een Dynamic Frames Extraction-strategie om aan te passen aan metamorfe time-lapse video's, die een breder variatiebereik hebben en dramatische objectmetamorfoseprocessen omvatten, en dus meer fysieke kennis belichamen dan algemene video's. Tot slot introduceren we een Magic Text-Encoder om het begrip van metamorfe videoprompts te verbeteren. Bovendien creëren we een time-lapse video-tekstdataset genaamd ChronoMagic, speciaal samengesteld om de metamorfe videogeneratiecapaciteit te ontgrendelen. Uitgebreide experimenten tonen de superioriteit en effectiviteit van MagicTime aan voor het genereren van hoogwaardige en dynamische metamorfe video's, wat suggereert dat time-lapse videogeneratie een veelbelovende weg is naar het bouwen van metamorfe simulators van de fysieke wereld.
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable
success in synthesizing high-quality general videos from textual descriptions.
A largely overlooked problem in T2V is that existing models have not adequately
encoded physical knowledge of the real world, thus generated videos tend to
have limited motion and poor variations. In this paper, we propose
MagicTime, a metamorphic time-lapse video generation model, which
learns real-world physics knowledge from time-lapse videos and implements
metamorphic generation. First, we design a MagicAdapter scheme to decouple
spatial and temporal training, encode more physical knowledge from metamorphic
videos, and transform pre-trained T2V models to generate metamorphic videos.
Second, we introduce a Dynamic Frames Extraction strategy to adapt to
metamorphic time-lapse videos, which have a wider variation range and cover
dramatic object metamorphic processes, thus embodying more physical knowledge
than general videos. Finally, we introduce a Magic Text-Encoder to improve the
understanding of metamorphic video prompts. Furthermore, we create a time-lapse
video-text dataset called ChronoMagic, specifically curated to unlock
the metamorphic video generation ability. Extensive experiments demonstrate the
superiority and effectiveness of MagicTime for generating high-quality and
dynamic metamorphic videos, suggesting time-lapse video generation is a
promising path toward building metamorphic simulators of the physical world.