ChatPaper.aiChatPaper

Captain Cinema: В направлении создания короткометражных фильмов

Captain Cinema: Towards Short Movie Generation

July 24, 2025
Авторы: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI

Аннотация

Мы представляем Captain Cinema — фреймворк для генерации короткометражных фильмов. На основе детального текстового описания сюжета фильма наш подход сначала генерирует последовательность ключевых кадров, которые очерчивают всю повествовательную структуру, обеспечивая долгосрочную согласованность как в сюжете, так и в визуальном оформлении (например, сцены и персонажи). Этот этап мы называем планированием ключевых кадров сверху вниз. Затем эти ключевые кадры используются как управляющие сигналы для модели синтеза видео, поддерживающей обучение на длинных контекстах, чтобы создать пространственно-временную динамику между ними. Этот этап называется синтезом видео снизу вверх. Для обеспечения стабильной и эффективной генерации длинных повествовательных кинематографических работ с несколькими сценами мы вводим чередующуюся стратегию обучения для Multimodal Diffusion Transformers (MM-DiT), специально адаптированную для работы с длинными контекстами видеоданных. Наша модель обучается на специально подготовленном кинематографическом наборе данных, состоящем из чередующихся пар данных. Эксперименты показывают, что Captain Cinema эффективно справляется с автоматизированным созданием визуально согласованных и сюжетно последовательных короткометражных фильмов высокого качества. Страница проекта: https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation. Given a detailed textual description of a movie storyline, our approach firstly generates a sequence of keyframes that outline the entire narrative, which ensures long-range coherence in both the storyline and visual appearance (e.g., scenes and characters). We refer to this step as top-down keyframe planning. These keyframes then serve as conditioning signals for a video synthesis model, which supports long context learning, to produce the spatio-temporal dynamics between them. This step is referred to as bottom-up video synthesis. To support stable and efficient generation of multi-scene long narrative cinematic works, we introduce an interleaved training strategy for Multimodal Diffusion Transformers (MM-DiT), specifically adapted for long-context video data. Our model is trained on a specially curated cinematic dataset consisting of interleaved data pairs. Our experiments demonstrate that Captain Cinema performs favorably in the automated creation of visually coherent and narrative consistent short movies in high quality and efficiency. Project page: https://thecinema.ai
PDF373July 25, 2025