キャプテン・シネマ:短編映画生成に向けて
Captain Cinema: Towards Short Movie Generation
July 24, 2025
著者: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI
要旨
本論文では、短編映画生成のためのフレームワーク「Captain Cinema」を提案する。本手法は、映画のストーリーラインを詳細に記述したテキストを入力として、まず物語全体を概観するキーフレームのシーケンスを生成する。これにより、ストーリーラインと視覚的表現(例:シーンやキャラクター)の長期的な一貫性が保証される。このステップを「トップダウン型キーフレーム計画」と呼ぶ。次に、これらのキーフレームを条件信号として、長文脈学習をサポートするビデオ合成モデルに供給し、それらの間の時空間的ダイナミクスを生成する。このステップを「ボトムアップ型ビデオ合成」と呼ぶ。多シーン長編物語映画の安定かつ効率的な生成をサポートするため、長文脈ビデオデータに特化したマルチモーダル拡散トランスフォーマー(MM-DiT)のためのインターリーブトレーニング戦略を導入する。本モデルは、インターリーブされたデータペアで構成される特別にキュレーションされた映画データセットでトレーニングされる。実験結果から、Captain Cinemaが視覚的に一貫性があり、物語的にも整合性の高い高品質な短編映画を自動生成する点で優れた性能を発揮することが示された。プロジェクトページ:https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation.
Given a detailed textual description of a movie storyline, our approach firstly
generates a sequence of keyframes that outline the entire narrative, which
ensures long-range coherence in both the storyline and visual appearance (e.g.,
scenes and characters). We refer to this step as top-down keyframe planning.
These keyframes then serve as conditioning signals for a video synthesis model,
which supports long context learning, to produce the spatio-temporal dynamics
between them. This step is referred to as bottom-up video synthesis. To support
stable and efficient generation of multi-scene long narrative cinematic works,
we introduce an interleaved training strategy for Multimodal Diffusion
Transformers (MM-DiT), specifically adapted for long-context video data. Our
model is trained on a specially curated cinematic dataset consisting of
interleaved data pairs. Our experiments demonstrate that Captain Cinema
performs favorably in the automated creation of visually coherent and narrative
consistent short movies in high quality and efficiency. Project page:
https://thecinema.ai