MovieDreamer: Geração Hierárquica para Sequência Visual Longa Coerente
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence
July 23, 2024
Autores: Canyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, Chunhua Shen
cs.AI
Resumo
Os avanços recentes na geração de vídeos têm principalmente aproveitado modelos de difusão para conteúdos de curta duração. No entanto, essas abordagens frequentemente falham na modelagem de narrativas complexas e na manutenção da consistência dos personagens ao longo de períodos prolongados, o que é essencial para a produção de vídeos de longa duração, como filmes. Propomos o MovieDreamer, um novo framework hierárquico que integra os pontos fortes de modelos autoregressivos com renderização baseada em difusão para pioneirar a geração de vídeos de longa duração com progressões de enredo intricadas e alta fidelidade visual. Nossa abordagem utiliza modelos autoregressivos para coerência narrativa global, prevendo sequências de tokens visuais que são posteriormente transformados em quadros de vídeo de alta qualidade por meio da renderização por difusão. Este método é semelhante aos processos tradicionais de produção de filmes, nos quais histórias complexas são decompostas em cenas gerenciáveis. Além disso, empregamos um roteiro multimodal que enriquece as descrições de cena com informações detalhadas dos personagens e estilo visual, aprimorando a continuidade e identidade dos personagens entre as cenas. Apresentamos experimentos extensivos em vários gêneros de filmes, demonstrando que nossa abordagem não apenas alcança qualidade visual e narrativa superiores, mas também estende efetivamente a duração do conteúdo gerado significativamente além das capacidades atuais. Página inicial: https://aim-uofa.github.io/MovieDreamer/.
English
Recent advancements in video generation have primarily leveraged diffusion
models for short-duration content. However, these approaches often fall short
in modeling complex narratives and maintaining character consistency over
extended periods, which is essential for long-form video production like
movies. We propose MovieDreamer, a novel hierarchical framework that integrates
the strengths of autoregressive models with diffusion-based rendering to
pioneer long-duration video generation with intricate plot progressions and
high visual fidelity. Our approach utilizes autoregressive models for global
narrative coherence, predicting sequences of visual tokens that are
subsequently transformed into high-quality video frames through diffusion
rendering. This method is akin to traditional movie production processes, where
complex stories are factorized down into manageable scene capturing. Further,
we employ a multimodal script that enriches scene descriptions with detailed
character information and visual style, enhancing continuity and character
identity across scenes. We present extensive experiments across various movie
genres, demonstrating that our approach not only achieves superior visual and
narrative quality but also effectively extends the duration of generated
content significantly beyond current capabilities. Homepage:
https://aim-uofa.github.io/MovieDreamer/.Summary
AI-Generated Summary