MovieDreamer: Иерархическая генерация для согласованной длинной визуальной последовательности
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence
July 23, 2024
Авторы: Canyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, Chunhua Shen
cs.AI
Аннотация
Недавние достижения в области генерации видео в основном опирались на модели диффузии для контента короткой длительности. Однако эти подходы часто не справляются с моделированием сложных повествовательных структур и поддержанием согласованности персонажей на протяжении продолжительного времени, что является важным для создания видео большой продолжительности, таких как фильмы. Мы предлагаем MovieDreamer, новую иерархическую структуру, которая интегрирует преимущества авторегрессионных моделей с диффузионным рендерингом для пионерской генерации видео большой продолжительности с запутанным сюжетом и высокой визуальной точностью. Наш подход использует авторегрессионные модели для обеспечения глобальной согласованности повествования, предсказывая последовательности визуальных токенов, которые затем преобразуются в кадры видео высокого качества с помощью диффузионного рендеринга. Этот метод аналогичен традиционным процессам производства фильмов, где сложные сюжеты разбиваются на управляемые сцены. Кроме того, мы используем мультимодальный сценарий, который обогащает описания сцен детальной информацией о персонажах и визуальным стилем, улучшая непрерывность и идентичность персонажей через сцены. Мы представляем обширные эксперименты в различных жанрах кино, демонстрируя, что наш подход не только достигает превосходного визуального и повествовательного качества, но также эффективно увеличивает продолжительность созданного контента значительно за пределы текущих возможностей. Домашняя страница: https://aim-uofa.github.io/MovieDreamer/.
English
Recent advancements in video generation have primarily leveraged diffusion
models for short-duration content. However, these approaches often fall short
in modeling complex narratives and maintaining character consistency over
extended periods, which is essential for long-form video production like
movies. We propose MovieDreamer, a novel hierarchical framework that integrates
the strengths of autoregressive models with diffusion-based rendering to
pioneer long-duration video generation with intricate plot progressions and
high visual fidelity. Our approach utilizes autoregressive models for global
narrative coherence, predicting sequences of visual tokens that are
subsequently transformed into high-quality video frames through diffusion
rendering. This method is akin to traditional movie production processes, where
complex stories are factorized down into manageable scene capturing. Further,
we employ a multimodal script that enriches scene descriptions with detailed
character information and visual style, enhancing continuity and character
identity across scenes. We present extensive experiments across various movie
genres, demonstrating that our approach not only achieves superior visual and
narrative quality but also effectively extends the duration of generated
content significantly beyond current capabilities. Homepage:
https://aim-uofa.github.io/MovieDreamer/.Summary
AI-Generated Summary