ChatPaper.aiChatPaper

MagicTime: 변형 시뮬레이터로서의 타임랩스 비디오 생성 모델

MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators

April 7, 2024
저자: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI

초록

텍스트-투-비디오 생성(T2V) 분야의 최근 발전은 텍스트 설명으로부터 고품질의 일반 비디오를 합성하는 데 있어 놀라운 성과를 거두었습니다. 그러나 T2V에서 크게 간과된 문제는 기존 모델들이 현실 세계의 물리적 지식을 충분히 인코딩하지 못해 생성된 비디오가 제한된 움직임과 빈약한 변화를 보인다는 점입니다. 본 논문에서는 타임랩스 비디오로부터 현실 세계의 물리적 지식을 학습하고 변형적 생성을 구현하는 MagicTime이라는 변형적 타임랩스 비디오 생성 모델을 제안합니다. 먼저, 공간적 및 시간적 훈련을 분리하고 변형적 비디오로부터 더 많은 물리적 지식을 인코딩하며, 사전 훈련된 T2V 모델을 변형적 비디오 생성으로 변환하는 MagicAdapter 기법을 설계합니다. 둘째, 더 넓은 변화 범위와 극적인 객체 변형 과정을 포함하여 일반 비디오보다 더 많은 물리적 지식을 체화하는 변형적 타임랩스 비디오에 적응하기 위한 Dynamic Frames Extraction 전략을 도입합니다. 마지막으로, 변형적 비디오 프롬프트의 이해를 개선하기 위한 Magic Text-Encoder를 소개합니다. 또한, 변형적 비디오 생성 능력을 해제하기 위해 특별히 제작된 ChronoMagic이라는 타임랩스 비디오-텍스트 데이터셋을 구축했습니다. 광범위한 실험을 통해 MagicTime이 고품질이고 동적인 변형적 비디오를 생성하는 데 있어 우수성과 효과성을 입증하며, 타임랩스 비디오 생성이 물리적 세계의 변형적 시뮬레이터를 구축하는 유망한 경로임을 시사합니다.
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable success in synthesizing high-quality general videos from textual descriptions. A largely overlooked problem in T2V is that existing models have not adequately encoded physical knowledge of the real world, thus generated videos tend to have limited motion and poor variations. In this paper, we propose MagicTime, a metamorphic time-lapse video generation model, which learns real-world physics knowledge from time-lapse videos and implements metamorphic generation. First, we design a MagicAdapter scheme to decouple spatial and temporal training, encode more physical knowledge from metamorphic videos, and transform pre-trained T2V models to generate metamorphic videos. Second, we introduce a Dynamic Frames Extraction strategy to adapt to metamorphic time-lapse videos, which have a wider variation range and cover dramatic object metamorphic processes, thus embodying more physical knowledge than general videos. Finally, we introduce a Magic Text-Encoder to improve the understanding of metamorphic video prompts. Furthermore, we create a time-lapse video-text dataset called ChronoMagic, specifically curated to unlock the metamorphic video generation ability. Extensive experiments demonstrate the superiority and effectiveness of MagicTime for generating high-quality and dynamic metamorphic videos, suggesting time-lapse video generation is a promising path toward building metamorphic simulators of the physical world.

Summary

AI-Generated Summary

PDF352December 15, 2024