ChatPaper.aiChatPaper

Capitán Cine: Hacia la Generación de Cortometrajes

Captain Cinema: Towards Short Movie Generation

July 24, 2025
Autores: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI

Resumen

Presentamos Captain Cinema, un marco de generación para la creación de cortometrajes. Dada una descripción textual detallada de la trama de una película, nuestro enfoque genera primero una secuencia de fotogramas clave que delinean toda la narrativa, lo que garantiza coherencia a largo plazo tanto en la trama como en la apariencia visual (por ejemplo, escenas y personajes). Nos referimos a este paso como planificación de fotogramas clave de arriba hacia abajo. Estos fotogramas clave sirven luego como señales de condicionamiento para un modelo de síntesis de video, que admite el aprendizaje de contexto largo, para producir la dinámica espacio-temporal entre ellos. Este paso se denomina síntesis de video de abajo hacia arriba. Para respaldar la generación estable y eficiente de obras cinematográficas narrativas largas con múltiples escenas, introducimos una estrategia de entrenamiento intercalado para Transformadores de Difusión Multimodal (MM-DiT), específicamente adaptada para datos de video de contexto largo. Nuestro modelo se entrena en un conjunto de datos cinematográficos especialmente curado que consta de pares de datos intercalados. Nuestros experimentos demuestran que Captain Cinema se desempeña favorablemente en la creación automatizada de cortometrajes visualmente coherentes y narrativamente consistentes con alta calidad y eficiencia. Página del proyecto: https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation. Given a detailed textual description of a movie storyline, our approach firstly generates a sequence of keyframes that outline the entire narrative, which ensures long-range coherence in both the storyline and visual appearance (e.g., scenes and characters). We refer to this step as top-down keyframe planning. These keyframes then serve as conditioning signals for a video synthesis model, which supports long context learning, to produce the spatio-temporal dynamics between them. This step is referred to as bottom-up video synthesis. To support stable and efficient generation of multi-scene long narrative cinematic works, we introduce an interleaved training strategy for Multimodal Diffusion Transformers (MM-DiT), specifically adapted for long-context video data. Our model is trained on a specially curated cinematic dataset consisting of interleaved data pairs. Our experiments demonstrate that Captain Cinema performs favorably in the automated creation of visually coherent and narrative consistent short movies in high quality and efficiency. Project page: https://thecinema.ai
PDF373July 25, 2025