ChatPaper.aiChatPaper

MagicTime : Modèles de génération de vidéos accélérées en tant que simulateurs métamorphiques

MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators

April 7, 2024
Auteurs: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI

Résumé

Les récentes avancées dans la génération de texte-à-vidéo (T2V) ont permis des succès remarquables dans la synthèse de vidéos générales de haute qualité à partir de descriptions textuelles. Un problème largement négligé dans le domaine T2V est que les modèles existants n'ont pas suffisamment encodé les connaissances physiques du monde réel, ce qui fait que les vidéos générées ont tendance à présenter des mouvements limités et des variations pauvres. Dans cet article, nous proposons MagicTime, un modèle de génération de vidéos accélérées métamorphiques, qui apprend les connaissances physiques du monde réel à partir de vidéos accélérées et met en œuvre une génération métamorphique. Tout d'abord, nous concevons un schéma MagicAdapter pour découpler l'entraînement spatial et temporel, encoder davantage de connaissances physiques à partir de vidéos métamorphiques, et transformer des modèles T2V pré-entraînés pour générer des vidéos métamorphiques. Ensuite, nous introduisons une stratégie d'Extraction Dynamique d'Images pour s'adapter aux vidéos accélérées métamorphiques, qui présentent une plage de variation plus large et couvrent des processus métamorphiques d'objets spectaculaires, incarnant ainsi plus de connaissances physiques que les vidéos générales. Enfin, nous introduisons un Magic Text-Encoder pour améliorer la compréhension des prompts de vidéos métamorphiques. De plus, nous créons un ensemble de données vidéo-texte accélérées appelé ChronoMagic, spécialement conçu pour débloquer la capacité de génération de vidéos métamorphiques. Des expériences approfondies démontrent la supériorité et l'efficacité de MagicTime pour générer des vidéos métamorphiques de haute qualité et dynamiques, suggérant que la génération de vidéos accélérées est une voie prometteuse pour construire des simulateurs métamorphiques du monde physique.
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable success in synthesizing high-quality general videos from textual descriptions. A largely overlooked problem in T2V is that existing models have not adequately encoded physical knowledge of the real world, thus generated videos tend to have limited motion and poor variations. In this paper, we propose MagicTime, a metamorphic time-lapse video generation model, which learns real-world physics knowledge from time-lapse videos and implements metamorphic generation. First, we design a MagicAdapter scheme to decouple spatial and temporal training, encode more physical knowledge from metamorphic videos, and transform pre-trained T2V models to generate metamorphic videos. Second, we introduce a Dynamic Frames Extraction strategy to adapt to metamorphic time-lapse videos, which have a wider variation range and cover dramatic object metamorphic processes, thus embodying more physical knowledge than general videos. Finally, we introduce a Magic Text-Encoder to improve the understanding of metamorphic video prompts. Furthermore, we create a time-lapse video-text dataset called ChronoMagic, specifically curated to unlock the metamorphic video generation ability. Extensive experiments demonstrate the superiority and effectiveness of MagicTime for generating high-quality and dynamic metamorphic videos, suggesting time-lapse video generation is a promising path toward building metamorphic simulators of the physical world.

Summary

AI-Generated Summary

PDF352December 15, 2024