MagicTime: Modelos de Geração de Vídeos Time-lapse como Simuladores Metamórficos
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
April 7, 2024
Autores: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI
Resumo
Os avanços recentes na geração de Texto para Vídeo (T2V) alcançaram sucesso notável na síntese de vídeos gerais de alta qualidade a partir de descrições textuais. Um problema amplamente negligenciado no T2V é que os modelos existentes não codificaram adequadamente o conhecimento físico do mundo real, resultando em vídeos gerados com movimento limitado e pouca variação. Neste artigo, propomos o MagicTime, um modelo de geração de vídeos time-lapse metamórficos, que aprende conhecimento físico do mundo real a partir de vídeos time-lapse e implementa a geração metamórfica. Primeiro, projetamos um esquema MagicAdapter para desacoplar o treinamento espacial e temporal, codificar mais conhecimento físico a partir de vídeos metamórficos e transformar modelos T2V pré-treinados para gerar vídeos metamórficos. Segundo, introduzimos uma estratégia de Extração Dinâmica de Quadros para se adaptar a vídeos time-lapse metamórficos, que possuem uma faixa de variação mais ampla e cobrem processos metamórficos dramáticos de objetos, incorporando assim mais conhecimento físico do que vídeos gerais. Por fim, introduzimos um Magic Text-Encoder para melhorar a compreensão de prompts de vídeos metamórficos. Além disso, criamos um conjunto de dados vídeo-texto chamado ChronoMagic, especificamente curado para desbloquear a capacidade de geração de vídeos metamórficos. Experimentos extensivos demonstram a superioridade e eficácia do MagicTime na geração de vídeos metamórficos de alta qualidade e dinâmicos, sugerindo que a geração de vídeos time-lapse é um caminho promissor para a construção de simuladores metamórficos do mundo físico.
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable
success in synthesizing high-quality general videos from textual descriptions.
A largely overlooked problem in T2V is that existing models have not adequately
encoded physical knowledge of the real world, thus generated videos tend to
have limited motion and poor variations. In this paper, we propose
MagicTime, a metamorphic time-lapse video generation model, which
learns real-world physics knowledge from time-lapse videos and implements
metamorphic generation. First, we design a MagicAdapter scheme to decouple
spatial and temporal training, encode more physical knowledge from metamorphic
videos, and transform pre-trained T2V models to generate metamorphic videos.
Second, we introduce a Dynamic Frames Extraction strategy to adapt to
metamorphic time-lapse videos, which have a wider variation range and cover
dramatic object metamorphic processes, thus embodying more physical knowledge
than general videos. Finally, we introduce a Magic Text-Encoder to improve the
understanding of metamorphic video prompts. Furthermore, we create a time-lapse
video-text dataset called ChronoMagic, specifically curated to unlock
the metamorphic video generation ability. Extensive experiments demonstrate the
superiority and effectiveness of MagicTime for generating high-quality and
dynamic metamorphic videos, suggesting time-lapse video generation is a
promising path toward building metamorphic simulators of the physical world.