Captain Cinéma : Vers la génération de courts métrages
Captain Cinema: Towards Short Movie Generation
July 24, 2025
papers.authors: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI
papers.abstract
Nous présentons Captain Cinema, un cadre de génération pour la création de courts métrages. À partir d’une description textuelle détaillée d’une intrigue cinématographique, notre approche génère d’abord une séquence de keyframes qui délimitent l’ensemble du récit, garantissant ainsi une cohérence à long terme tant dans l’histoire que dans l’apparence visuelle (par exemple, les scènes et les personnages). Nous appelons cette étape la planification descendante des keyframes. Ces keyframes servent ensuite de signaux de conditionnement pour un modèle de synthèse vidéo, capable d’apprentissage contextuel étendu, afin de produire les dynamiques spatio-temporelles entre elles. Cette étape est appelée la synthèse ascendante de la vidéo. Pour soutenir la génération stable et efficace d’œuvres cinématographiques narratives longues et multi-scènes, nous introduisons une stratégie d’entraînement entrelacé pour les Transformers de Diffusion Multimodale (MM-DiT), spécifiquement adaptée aux données vidéo à contexte étendu. Notre modèle est entraîné sur un ensemble de données cinématographiques spécialement conçu, composé de paires de données entrelacées. Nos expériences démontrent que Captain Cinema excelle dans la création automatisée de courts métrages visuellement cohérents et narrativement consistants, avec une qualité et une efficacité élevées. Page du projet : https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation.
Given a detailed textual description of a movie storyline, our approach firstly
generates a sequence of keyframes that outline the entire narrative, which
ensures long-range coherence in both the storyline and visual appearance (e.g.,
scenes and characters). We refer to this step as top-down keyframe planning.
These keyframes then serve as conditioning signals for a video synthesis model,
which supports long context learning, to produce the spatio-temporal dynamics
between them. This step is referred to as bottom-up video synthesis. To support
stable and efficient generation of multi-scene long narrative cinematic works,
we introduce an interleaved training strategy for Multimodal Diffusion
Transformers (MM-DiT), specifically adapted for long-context video data. Our
model is trained on a specially curated cinematic dataset consisting of
interleaved data pairs. Our experiments demonstrate that Captain Cinema
performs favorably in the automated creation of visually coherent and narrative
consistent short movies in high quality and efficiency. Project page:
https://thecinema.ai