MovieDreamer: Geração Hierárquica para Sequência Visual Longa Coerente

Resumo

Os avanços recentes na geração de vídeos têm principalmente aproveitado modelos de difusão para conteúdos de curta duração. No entanto, essas abordagens frequentemente falham na modelagem de narrativas complexas e na manutenção da consistência dos personagens ao longo de períodos prolongados, o que é essencial para a produção de vídeos de longa duração, como filmes. Propomos o MovieDreamer, um novo framework hierárquico que integra os pontos fortes de modelos autoregressivos com renderização baseada em difusão para pioneirar a geração de vídeos de longa duração com progressões de enredo intricadas e alta fidelidade visual. Nossa abordagem utiliza modelos autoregressivos para coerência narrativa global, prevendo sequências de tokens visuais que são posteriormente transformados em quadros de vídeo de alta qualidade por meio da renderização por difusão. Este método é semelhante aos processos tradicionais de produção de filmes, nos quais histórias complexas são decompostas em cenas gerenciáveis. Além disso, empregamos um roteiro multimodal que enriquece as descrições de cena com informações detalhadas dos personagens e estilo visual, aprimorando a continuidade e identidade dos personagens entre as cenas. Apresentamos experimentos extensivos em vários gêneros de filmes, demonstrando que nossa abordagem não apenas alcança qualidade visual e narrativa superiores, mas também estende efetivamente a duração do conteúdo gerado significativamente além das capacidades atuais. Página inicial: https://aim-uofa.github.io/MovieDreamer/.

English

Recent advancements in video generation have primarily leveraged diffusion models for short-duration content. However, these approaches often fall short in modeling complex narratives and maintaining character consistency over extended periods, which is essential for long-form video production like movies. We propose MovieDreamer, a novel hierarchical framework that integrates the strengths of autoregressive models with diffusion-based rendering to pioneer long-duration video generation with intricate plot progressions and high visual fidelity. Our approach utilizes autoregressive models for global narrative coherence, predicting sequences of visual tokens that are subsequently transformed into high-quality video frames through diffusion rendering. This method is akin to traditional movie production processes, where complex stories are factorized down into manageable scene capturing. Further, we employ a multimodal script that enriches scene descriptions with detailed character information and visual style, enhancing continuity and character identity across scenes. We present extensive experiments across various movie genres, demonstrating that our approach not only achieves superior visual and narrative quality but also effectively extends the duration of generated content significantly beyond current capabilities. Homepage: https://aim-uofa.github.io/MovieDreamer/.

MovieDreamer: Geração Hierárquica para Sequência Visual Longa Coerente

MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

Resumo

Summary

Support

Support