MagicTime: Modelli di generazione di video time-lapse come simulatori metamorfici
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
April 7, 2024
Autori: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI
Abstract
I recenti progressi nella generazione di video da testo (Text-to-Video, T2V) hanno ottenuto risultati notevoli nella sintesi di video di alta qualità a partire da descrizioni testuali. Un problema largamente trascurato nel T2V è che i modelli esistenti non hanno adeguatamente codificato la conoscenza fisica del mondo reale, pertanto i video generati tendono ad avere movimenti limitati e scarse variazioni. In questo articolo, proponiamo MagicTime, un modello di generazione di video time-lapse metamorfici, che apprende la conoscenza fisica del mondo reale dai video time-lapse e implementa la generazione metamorfica. In primo luogo, progettiamo uno schema MagicAdapter per disaccoppiare l'addestramento spaziale e temporale, codificare maggiori conoscenze fisiche dai video metamorfici e trasformare i modelli T2V pre-addestrati per generare video metamorfici. In secondo luogo, introduciamo una strategia di Estrazione Dinamica dei Fotogrammi per adattarsi ai video time-lapse metamorfici, che hanno un intervallo di variazione più ampio e coprono processi metamorfici drammatici degli oggetti, incorporando così più conoscenze fisiche rispetto ai video generici. Infine, introduciamo un Magic Text-Encoder per migliorare la comprensione dei prompt dei video metamorfici. Inoltre, creiamo un dataset video-testo time-lapse chiamato ChronoMagic, specificamente curato per sbloccare la capacità di generazione di video metamorfici. Esperimenti estensivi dimostrano la superiorità e l'efficacia di MagicTime nella generazione di video metamorfici di alta qualità e dinamici, suggerendo che la generazione di video time-lapse è una strada promettente verso la costruzione di simulatori metamorfici del mondo fisico.
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable
success in synthesizing high-quality general videos from textual descriptions.
A largely overlooked problem in T2V is that existing models have not adequately
encoded physical knowledge of the real world, thus generated videos tend to
have limited motion and poor variations. In this paper, we propose
MagicTime, a metamorphic time-lapse video generation model, which
learns real-world physics knowledge from time-lapse videos and implements
metamorphic generation. First, we design a MagicAdapter scheme to decouple
spatial and temporal training, encode more physical knowledge from metamorphic
videos, and transform pre-trained T2V models to generate metamorphic videos.
Second, we introduce a Dynamic Frames Extraction strategy to adapt to
metamorphic time-lapse videos, which have a wider variation range and cover
dramatic object metamorphic processes, thus embodying more physical knowledge
than general videos. Finally, we introduce a Magic Text-Encoder to improve the
understanding of metamorphic video prompts. Furthermore, we create a time-lapse
video-text dataset called ChronoMagic, specifically curated to unlock
the metamorphic video generation ability. Extensive experiments demonstrate the
superiority and effectiveness of MagicTime for generating high-quality and
dynamic metamorphic videos, suggesting time-lapse video generation is a
promising path toward building metamorphic simulators of the physical world.