ChatPaper.aiChatPaper

MagicTime: Modelos de generación de vídeos time-lapse como simuladores metamórficos

MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators

April 7, 2024
Autores: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI

Resumen

Los recientes avances en la generación de texto a video (T2V) han logrado un éxito notable en la síntesis de videos generales de alta calidad a partir de descripciones textuales. Un problema ampliamente pasado por alto en T2V es que los modelos existentes no han codificado adecuadamente el conocimiento físico del mundo real, por lo que los videos generados tienden a tener movimientos limitados y variaciones deficientes. En este artículo, proponemos MagicTime, un modelo de generación de videos time-lapse metamórficos, que aprende conocimiento físico del mundo real a partir de videos time-lapse e implementa la generación metamórfica. Primero, diseñamos un esquema MagicAdapter para desacoplar el entrenamiento espacial y temporal, codificar más conocimiento físico a partir de videos metamórficos y transformar modelos T2V preentrenados para generar videos metamórficos. Segundo, introducimos una estrategia de Extracción Dinámica de Fotogramas para adaptarnos a los videos time-lapse metamórficos, que tienen un rango de variación más amplio y cubren procesos metamórficos de objetos dramáticos, incorporando así más conocimiento físico que los videos generales. Finalmente, presentamos un Magic Text-Encoder para mejorar la comprensión de las indicaciones de videos metamórficos. Además, creamos un conjunto de datos de video-texto time-lapse llamado ChronoMagic, específicamente curado para desbloquear la capacidad de generación de videos metamórficos. Experimentos extensivos demuestran la superioridad y efectividad de MagicTime para generar videos metamórficos dinámicos y de alta calidad, sugiriendo que la generación de videos time-lapse es un camino prometedor hacia la construcción de simuladores metamórficos del mundo físico.
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable success in synthesizing high-quality general videos from textual descriptions. A largely overlooked problem in T2V is that existing models have not adequately encoded physical knowledge of the real world, thus generated videos tend to have limited motion and poor variations. In this paper, we propose MagicTime, a metamorphic time-lapse video generation model, which learns real-world physics knowledge from time-lapse videos and implements metamorphic generation. First, we design a MagicAdapter scheme to decouple spatial and temporal training, encode more physical knowledge from metamorphic videos, and transform pre-trained T2V models to generate metamorphic videos. Second, we introduce a Dynamic Frames Extraction strategy to adapt to metamorphic time-lapse videos, which have a wider variation range and cover dramatic object metamorphic processes, thus embodying more physical knowledge than general videos. Finally, we introduce a Magic Text-Encoder to improve the understanding of metamorphic video prompts. Furthermore, we create a time-lapse video-text dataset called ChronoMagic, specifically curated to unlock the metamorphic video generation ability. Extensive experiments demonstrate the superiority and effectiveness of MagicTime for generating high-quality and dynamic metamorphic videos, suggesting time-lapse video generation is a promising path toward building metamorphic simulators of the physical world.

Summary

AI-Generated Summary

PDF352December 15, 2024