ChatPaper.aiChatPaper

Captain Cinema: Op Weg naar Korte Film Generatie

Captain Cinema: Towards Short Movie Generation

July 24, 2025
Auteurs: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI

Samenvatting

We presenteren Captain Cinema, een generatieframework voor het maken van korte films. Gegeven een gedetailleerde tekstuele beschrijving van een filmverhaal, genereert onze aanpak eerst een reeks keyframes die het volledige narratief schetsen, wat zorgt voor langeafstandscoherentie in zowel het verhaal als het visuele uiterlijk (bijv. scènes en personages). We verwijzen naar deze stap als top-down keyframe planning. Deze keyframes dienen vervolgens als conditioneringssignalen voor een videosynthesemodel, dat langecontextleren ondersteunt, om de spatio-temporele dynamiek tussen de keyframes te produceren. Deze stap wordt aangeduid als bottom-up video synthesis. Om de stabiele en efficiënte generatie van lange narratieve cinematische werken met meerdere scènes te ondersteunen, introduceren we een interleaved trainingsstrategie voor Multimodal Diffusion Transformers (MM-DiT), specifiek aangepast voor langecontext videodata. Ons model is getraind op een speciaal samengestelde cinematische dataset bestaande uit interleaved dataparen. Onze experimenten tonen aan dat Captain Cinema gunstig presteert in de geautomatiseerde creatie van visueel coherente en narratief consistente korte films van hoge kwaliteit en efficiëntie. Projectpagina: https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation. Given a detailed textual description of a movie storyline, our approach firstly generates a sequence of keyframes that outline the entire narrative, which ensures long-range coherence in both the storyline and visual appearance (e.g., scenes and characters). We refer to this step as top-down keyframe planning. These keyframes then serve as conditioning signals for a video synthesis model, which supports long context learning, to produce the spatio-temporal dynamics between them. This step is referred to as bottom-up video synthesis. To support stable and efficient generation of multi-scene long narrative cinematic works, we introduce an interleaved training strategy for Multimodal Diffusion Transformers (MM-DiT), specifically adapted for long-context video data. Our model is trained on a specially curated cinematic dataset consisting of interleaved data pairs. Our experiments demonstrate that Captain Cinema performs favorably in the automated creation of visually coherent and narrative consistent short movies in high quality and efficiency. Project page: https://thecinema.ai
PDF403July 25, 2025