MovieDreamer: Hierarchische Generierung für kohärente lange visuelle Sequenzen
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence
July 23, 2024
Autoren: Canyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, Chunhua Shen
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei der Videogenerierung hauptsächlich auf Diffusionsmodellen für kurze Inhalte beruht. Diese Ansätze sind jedoch oft nicht in der Lage, komplexe Handlungsstränge zu modellieren und die Konsistenz der Charaktere über längere Zeiträume aufrechtzuerhalten, was für die Produktion von Langformvideos wie Filmen unerlässlich ist. Wir schlagen MovieDreamer vor, ein neuartiges hierarchisches Framework, das die Stärken von autoregressiven Modellen mit diffusionsbasiertem Rendern integriert, um die Generierung von Langzeitvideos mit komplexen Handlungsverläufen und hoher visueller Qualität zu erschließen. Unser Ansatz nutzt autoregressive Modelle für die globale narrative Kohärenz, indem er Sequenzen von visuellen Token vorhersagt, die anschließend durch diffusionsbasiertes Rendern in qualitativ hochwertige Videoframes umgewandelt werden. Diese Methode ähnelt den traditionellen Filmproduktionsprozessen, bei denen komplexe Geschichten in überschaubare Szenenaufnahmen zerlegt werden. Darüber hinaus verwenden wir ein multimodales Drehbuch, das Szenenbeschreibungen mit detaillierten Charakterinformationen und visuellem Stil anreichert, um Kontinuität und Charakteridentität über die Szenen hinweg zu verbessern. Wir präsentieren umfangreiche Experimente in verschiedenen Filmgenres, die zeigen, dass unser Ansatz nicht nur eine überlegene visuelle und narrative Qualität erreicht, sondern auch die Dauer des generierten Inhalts signifikant über die aktuellen Möglichkeiten hinaus ausdehnt. Homepage: https://aim-uofa.github.io/MovieDreamer/.
English
Recent advancements in video generation have primarily leveraged diffusion
models for short-duration content. However, these approaches often fall short
in modeling complex narratives and maintaining character consistency over
extended periods, which is essential for long-form video production like
movies. We propose MovieDreamer, a novel hierarchical framework that integrates
the strengths of autoregressive models with diffusion-based rendering to
pioneer long-duration video generation with intricate plot progressions and
high visual fidelity. Our approach utilizes autoregressive models for global
narrative coherence, predicting sequences of visual tokens that are
subsequently transformed into high-quality video frames through diffusion
rendering. This method is akin to traditional movie production processes, where
complex stories are factorized down into manageable scene capturing. Further,
we employ a multimodal script that enriches scene descriptions with detailed
character information and visual style, enhancing continuity and character
identity across scenes. We present extensive experiments across various movie
genres, demonstrating that our approach not only achieves superior visual and
narrative quality but also effectively extends the duration of generated
content significantly beyond current capabilities. Homepage:
https://aim-uofa.github.io/MovieDreamer/.Summary
AI-Generated Summary