Captain Cinema: Verso la Generazione di Cortometraggi
Captain Cinema: Towards Short Movie Generation
July 24, 2025
Autori: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI
Abstract
Presentiamo Captain Cinema, un framework di generazione per la creazione di brevi filmati.
Data una descrizione testuale dettagliata della trama di un film, il nostro approccio genera inizialmente
una sequenza di fotogrammi chiave che delineano l'intera narrazione, garantendo coerenza a lungo raggio sia nella trama
che nell'aspetto visivo (ad esempio, scene e personaggi). Questo passaggio è definito pianificazione top-down dei fotogrammi chiave.
Questi fotogrammi fungono poi da segnali di condizionamento per un modello di sintesi video, che supporta l'apprendimento di contesti lunghi,
per produrre le dinamiche spazio-temporali tra di essi. Questo passaggio è denominato sintesi video bottom-up.
Per supportare la generazione stabile ed efficiente di opere cinematografiche narrative lunghe e multi-scena,
introduciamo una strategia di addestramento intervallato per i Multimodal Diffusion Transformers (MM-DiT),
specificamente adattata per dati video a contesto lungo. Il nostro modello è addestrato su un dataset cinematografico
appositamente curato composto da coppie di dati intervallati. I nostri esperimenti dimostrano che Captain Cinema
si distingue favorevolmente nella creazione automatizzata di brevi filmati visivamente coerenti e narrativamente
consistenti, con alta qualità ed efficienza. Pagina del progetto: https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation.
Given a detailed textual description of a movie storyline, our approach firstly
generates a sequence of keyframes that outline the entire narrative, which
ensures long-range coherence in both the storyline and visual appearance (e.g.,
scenes and characters). We refer to this step as top-down keyframe planning.
These keyframes then serve as conditioning signals for a video synthesis model,
which supports long context learning, to produce the spatio-temporal dynamics
between them. This step is referred to as bottom-up video synthesis. To support
stable and efficient generation of multi-scene long narrative cinematic works,
we introduce an interleaved training strategy for Multimodal Diffusion
Transformers (MM-DiT), specifically adapted for long-context video data. Our
model is trained on a specially curated cinematic dataset consisting of
interleaved data pairs. Our experiments demonstrate that Captain Cinema
performs favorably in the automated creation of visually coherent and narrative
consistent short movies in high quality and efficiency. Project page:
https://thecinema.ai