Captain Cinema: Auf dem Weg zur Kurzfilmgenerierung
Captain Cinema: Towards Short Movie Generation
July 24, 2025
papers.authors: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI
papers.abstract
Wir präsentieren Captain Cinema, ein Generierungsframework zur Erstellung von Kurzfilmen. Ausgehend von einer detaillierten textuellen Beschreibung einer Filmhandlung generiert unser Ansatz zunächst eine Sequenz von Schlüsselbildern, die die gesamte Erzählung skizzieren. Dies gewährleistet eine langfristige Kohärenz sowohl in der Handlung als auch im visuellen Erscheinungsbild (z. B. Szenen und Charaktere). Wir bezeichnen diesen Schritt als Top-down-Schlüsselbildplanung. Diese Schlüsselbilder dienen anschließend als Konditionierungssignale für ein Videosynthesemodell, das langen Kontext unterstützt, um die räumlich-zeitliche Dynamik zwischen ihnen zu erzeugen. Dieser Schritt wird als Bottom-up-Videosynthese bezeichnet. Um die stabile und effiziente Generierung von mehrszenigen, narrativen Kinowerken mit langer Handlung zu ermöglichen, führen wir eine verschachtelte Trainingsstrategie für Multimodale Diffusions-Transformer (MM-DiT) ein, die speziell für langen Kontext in Videodaten angepasst ist. Unser Modell wird auf einem speziell kuratierten kinematografischen Datensatz trainiert, der aus verschachtelten Datenpaaren besteht. Unsere Experimente zeigen, dass Captain Cinema bei der automatisierten Erstellung von visuell kohärenten und narrativ konsistenten Kurzfilmen in hoher Qualität und Effizienz überzeugende Ergebnisse liefert. Projektseite: https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation.
Given a detailed textual description of a movie storyline, our approach firstly
generates a sequence of keyframes that outline the entire narrative, which
ensures long-range coherence in both the storyline and visual appearance (e.g.,
scenes and characters). We refer to this step as top-down keyframe planning.
These keyframes then serve as conditioning signals for a video synthesis model,
which supports long context learning, to produce the spatio-temporal dynamics
between them. This step is referred to as bottom-up video synthesis. To support
stable and efficient generation of multi-scene long narrative cinematic works,
we introduce an interleaved training strategy for Multimodal Diffusion
Transformers (MM-DiT), specifically adapted for long-context video data. Our
model is trained on a specially curated cinematic dataset consisting of
interleaved data pairs. Our experiments demonstrate that Captain Cinema
performs favorably in the automated creation of visually coherent and narrative
consistent short movies in high quality and efficiency. Project page:
https://thecinema.ai