ChatPaper.aiChatPaper

Capitão Cinema: Rumo à Geração de Curtas-Metragens

Captain Cinema: Towards Short Movie Generation

July 24, 2025
Autores: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI

Resumo

Apresentamos o Captain Cinema, uma estrutura de geração para a criação de curtas-metragens. Dada uma descrição textual detalhada de uma história de filme, nossa abordagem primeiro gera uma sequência de quadros-chave que delineiam toda a narrativa, garantindo coerência de longo alcance tanto na história quanto na aparência visual (por exemplo, cenas e personagens). Referimo-nos a essa etapa como planejamento de quadros-chave de cima para baixo. Esses quadros-chave então servem como sinais de condicionamento para um modelo de síntese de vídeo, que suporta aprendizado de contexto longo, para produzir a dinâmica espaço-temporal entre eles. Essa etapa é chamada de síntese de vídeo de baixo para cima. Para apoiar a geração estável e eficiente de obras cinematográficas narrativas longas com múltiplas cenas, introduzimos uma estratégia de treinamento intercalado para Transformadores de Difusão Multimodal (MM-DiT), especificamente adaptada para dados de vídeo de contexto longo. Nosso modelo é treinado em um conjunto de dados cinematográficos especialmente curado, composto por pares de dados intercalados. Nossos experimentos demonstram que o Captain Cinema se sai favoravelmente na criação automatizada de curtas-metragens visualmente coerentes e narrativamente consistentes, com alta qualidade e eficiência. Página do projeto: https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation. Given a detailed textual description of a movie storyline, our approach firstly generates a sequence of keyframes that outline the entire narrative, which ensures long-range coherence in both the storyline and visual appearance (e.g., scenes and characters). We refer to this step as top-down keyframe planning. These keyframes then serve as conditioning signals for a video synthesis model, which supports long context learning, to produce the spatio-temporal dynamics between them. This step is referred to as bottom-up video synthesis. To support stable and efficient generation of multi-scene long narrative cinematic works, we introduce an interleaved training strategy for Multimodal Diffusion Transformers (MM-DiT), specifically adapted for long-context video data. Our model is trained on a specially curated cinematic dataset consisting of interleaved data pairs. Our experiments demonstrate that Captain Cinema performs favorably in the automated creation of visually coherent and narrative consistent short movies in high quality and efficiency. Project page: https://thecinema.ai
PDF373July 25, 2025