MovieDreamer: Hierarchische Generierung für kohärente lange visuelle Sequenzen

papers.abstract

In jüngster Zeit haben Fortschritte bei der Videogenerierung hauptsächlich auf Diffusionsmodellen für kurze Inhalte beruht. Diese Ansätze sind jedoch oft nicht in der Lage, komplexe Handlungsstränge zu modellieren und die Konsistenz der Charaktere über längere Zeiträume aufrechtzuerhalten, was für die Produktion von Langformvideos wie Filmen unerlässlich ist. Wir schlagen MovieDreamer vor, ein neuartiges hierarchisches Framework, das die Stärken von autoregressiven Modellen mit diffusionsbasiertem Rendern integriert, um die Generierung von Langzeitvideos mit komplexen Handlungsverläufen und hoher visueller Qualität zu erschließen. Unser Ansatz nutzt autoregressive Modelle für die globale narrative Kohärenz, indem er Sequenzen von visuellen Token vorhersagt, die anschließend durch diffusionsbasiertes Rendern in qualitativ hochwertige Videoframes umgewandelt werden. Diese Methode ähnelt den traditionellen Filmproduktionsprozessen, bei denen komplexe Geschichten in überschaubare Szenenaufnahmen zerlegt werden. Darüber hinaus verwenden wir ein multimodales Drehbuch, das Szenenbeschreibungen mit detaillierten Charakterinformationen und visuellem Stil anreichert, um Kontinuität und Charakteridentität über die Szenen hinweg zu verbessern. Wir präsentieren umfangreiche Experimente in verschiedenen Filmgenres, die zeigen, dass unser Ansatz nicht nur eine überlegene visuelle und narrative Qualität erreicht, sondern auch die Dauer des generierten Inhalts signifikant über die aktuellen Möglichkeiten hinaus ausdehnt. Homepage: https://aim-uofa.github.io/MovieDreamer/.

English

Recent advancements in video generation have primarily leveraged diffusion models for short-duration content. However, these approaches often fall short in modeling complex narratives and maintaining character consistency over extended periods, which is essential for long-form video production like movies. We propose MovieDreamer, a novel hierarchical framework that integrates the strengths of autoregressive models with diffusion-based rendering to pioneer long-duration video generation with intricate plot progressions and high visual fidelity. Our approach utilizes autoregressive models for global narrative coherence, predicting sequences of visual tokens that are subsequently transformed into high-quality video frames through diffusion rendering. This method is akin to traditional movie production processes, where complex stories are factorized down into manageable scene capturing. Further, we employ a multimodal script that enriches scene descriptions with detailed character information and visual style, enhancing continuity and character identity across scenes. We present extensive experiments across various movie genres, demonstrating that our approach not only achieves superior visual and narrative quality but also effectively extends the duration of generated content significantly beyond current capabilities. Homepage: https://aim-uofa.github.io/MovieDreamer/.

MovieDreamer: Hierarchische Generierung für kohärente lange visuelle Sequenzen

MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

papers.abstract

Support