MagicTime: Modelos de Geração de Vídeos Time-lapse como Simuladores Metamórficos

Resumo

Os avanços recentes na geração de Texto para Vídeo (T2V) alcançaram sucesso notável na síntese de vídeos gerais de alta qualidade a partir de descrições textuais. Um problema amplamente negligenciado no T2V é que os modelos existentes não codificaram adequadamente o conhecimento físico do mundo real, resultando em vídeos gerados com movimento limitado e pouca variação. Neste artigo, propomos o MagicTime, um modelo de geração de vídeos time-lapse metamórficos, que aprende conhecimento físico do mundo real a partir de vídeos time-lapse e implementa a geração metamórfica. Primeiro, projetamos um esquema MagicAdapter para desacoplar o treinamento espacial e temporal, codificar mais conhecimento físico a partir de vídeos metamórficos e transformar modelos T2V pré-treinados para gerar vídeos metamórficos. Segundo, introduzimos uma estratégia de Extração Dinâmica de Quadros para se adaptar a vídeos time-lapse metamórficos, que possuem uma faixa de variação mais ampla e cobrem processos metamórficos dramáticos de objetos, incorporando assim mais conhecimento físico do que vídeos gerais. Por fim, introduzimos um Magic Text-Encoder para melhorar a compreensão de prompts de vídeos metamórficos. Além disso, criamos um conjunto de dados vídeo-texto chamado ChronoMagic, especificamente curado para desbloquear a capacidade de geração de vídeos metamórficos. Experimentos extensivos demonstram a superioridade e eficácia do MagicTime na geração de vídeos metamórficos de alta qualidade e dinâmicos, sugerindo que a geração de vídeos time-lapse é um caminho promissor para a construção de simuladores metamórficos do mundo físico.

English

Recent advances in Text-to-Video generation (T2V) have achieved remarkable success in synthesizing high-quality general videos from textual descriptions. A largely overlooked problem in T2V is that existing models have not adequately encoded physical knowledge of the real world, thus generated videos tend to have limited motion and poor variations. In this paper, we propose MagicTime, a metamorphic time-lapse video generation model, which learns real-world physics knowledge from time-lapse videos and implements metamorphic generation. First, we design a MagicAdapter scheme to decouple spatial and temporal training, encode more physical knowledge from metamorphic videos, and transform pre-trained T2V models to generate metamorphic videos. Second, we introduce a Dynamic Frames Extraction strategy to adapt to metamorphic time-lapse videos, which have a wider variation range and cover dramatic object metamorphic processes, thus embodying more physical knowledge than general videos. Finally, we introduce a Magic Text-Encoder to improve the understanding of metamorphic video prompts. Furthermore, we create a time-lapse video-text dataset called ChronoMagic, specifically curated to unlock the metamorphic video generation ability. Extensive experiments demonstrate the superiority and effectiveness of MagicTime for generating high-quality and dynamic metamorphic videos, suggesting time-lapse video generation is a promising path toward building metamorphic simulators of the physical world.

MagicTime: Modelos de Geração de Vídeos Time-lapse como Simuladores Metamórficos

MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators

Resumo

Support