MovieDreamer: Иерархическая генерация для согласованной длинной визуальной последовательности

Аннотация

Недавние достижения в области генерации видео в основном опирались на модели диффузии для контента короткой длительности. Однако эти подходы часто не справляются с моделированием сложных повествовательных структур и поддержанием согласованности персонажей на протяжении продолжительного времени, что является важным для создания видео большой продолжительности, таких как фильмы. Мы предлагаем MovieDreamer, новую иерархическую структуру, которая интегрирует преимущества авторегрессионных моделей с диффузионным рендерингом для пионерской генерации видео большой продолжительности с запутанным сюжетом и высокой визуальной точностью. Наш подход использует авторегрессионные модели для обеспечения глобальной согласованности повествования, предсказывая последовательности визуальных токенов, которые затем преобразуются в кадры видео высокого качества с помощью диффузионного рендеринга. Этот метод аналогичен традиционным процессам производства фильмов, где сложные сюжеты разбиваются на управляемые сцены. Кроме того, мы используем мультимодальный сценарий, который обогащает описания сцен детальной информацией о персонажах и визуальным стилем, улучшая непрерывность и идентичность персонажей через сцены. Мы представляем обширные эксперименты в различных жанрах кино, демонстрируя, что наш подход не только достигает превосходного визуального и повествовательного качества, но также эффективно увеличивает продолжительность созданного контента значительно за пределы текущих возможностей. Домашняя страница: https://aim-uofa.github.io/MovieDreamer/.

English

Recent advancements in video generation have primarily leveraged diffusion models for short-duration content. However, these approaches often fall short in modeling complex narratives and maintaining character consistency over extended periods, which is essential for long-form video production like movies. We propose MovieDreamer, a novel hierarchical framework that integrates the strengths of autoregressive models with diffusion-based rendering to pioneer long-duration video generation with intricate plot progressions and high visual fidelity. Our approach utilizes autoregressive models for global narrative coherence, predicting sequences of visual tokens that are subsequently transformed into high-quality video frames through diffusion rendering. This method is akin to traditional movie production processes, where complex stories are factorized down into manageable scene capturing. Further, we employ a multimodal script that enriches scene descriptions with detailed character information and visual style, enhancing continuity and character identity across scenes. We present extensive experiments across various movie genres, demonstrating that our approach not only achieves superior visual and narrative quality but also effectively extends the duration of generated content significantly beyond current capabilities. Homepage: https://aim-uofa.github.io/MovieDreamer/.

MovieDreamer: Иерархическая генерация для согласованной длинной визуальной последовательности

MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

Аннотация

Support