MovieDreamer: 階層的生成による一貫性のある長尺視覚シーケンス
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence
July 23, 2024
著者: Canyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, Chunhua Shen
cs.AI
要旨
近年のビデオ生成技術の進展は、主に拡散モデルを活用した短時間コンテンツの生成に焦点が当てられてきた。しかし、これらのアプローチは、複雑な物語のモデリングや、映画のような長編ビデオ制作に不可欠な長期間にわたるキャラクターの一貫性の維持において、しばしば限界がある。本論文では、MovieDreamerという新しい階層的フレームワークを提案する。このフレームワークは、自己回帰モデルの強みと拡散ベースのレンダリングを統合し、複雑なプロット進行と高い視覚的忠実度を備えた長時間ビデオ生成を開拓するものである。我々のアプローチでは、グローバルな物語の一貫性を保つために自己回帰モデルを活用し、視覚的トークンのシーケンスを予測し、その後拡散レンダリングを通じて高品質なビデオフレームに変換する。この方法は、複雑な物語を管理可能なシーン撮影に分解する伝統的な映画制作プロセスに類似している。さらに、詳細なキャラクター情報と視覚スタイルをシーン記述に加えたマルチモーダルスクリプトを採用し、シーン間の連続性とキャラクターの同一性を強化する。様々な映画ジャンルにわたる広範な実験を通じて、我々のアプローチが優れた視覚的および物語的品質を達成するだけでなく、生成コンテンツの持続時間を現在の能力を大幅に超えて拡張することを実証する。ホームページ: https://aim-uofa.github.io/MovieDreamer/。
English
Recent advancements in video generation have primarily leveraged diffusion
models for short-duration content. However, these approaches often fall short
in modeling complex narratives and maintaining character consistency over
extended periods, which is essential for long-form video production like
movies. We propose MovieDreamer, a novel hierarchical framework that integrates
the strengths of autoregressive models with diffusion-based rendering to
pioneer long-duration video generation with intricate plot progressions and
high visual fidelity. Our approach utilizes autoregressive models for global
narrative coherence, predicting sequences of visual tokens that are
subsequently transformed into high-quality video frames through diffusion
rendering. This method is akin to traditional movie production processes, where
complex stories are factorized down into manageable scene capturing. Further,
we employ a multimodal script that enriches scene descriptions with detailed
character information and visual style, enhancing continuity and character
identity across scenes. We present extensive experiments across various movie
genres, demonstrating that our approach not only achieves superior visual and
narrative quality but also effectively extends the duration of generated
content significantly beyond current capabilities. Homepage:
https://aim-uofa.github.io/MovieDreamer/.Summary
AI-Generated Summary