캡틴 시네마: 단편 영화 생성 기술을 향하여
Captain Cinema: Towards Short Movie Generation
July 24, 2025
저자: Junfei Xiao, Ceyuan Yang, Lvmin Zhang, Shengqu Cai, Yang Zhao, Yuwei Guo, Gordon Wetzstein, Maneesh Agrawala, Alan Yuille, Lu Jiang
cs.AI
초록
우리는 짧은 영화 생성을 위한 생성 프레임워크인 'Captain Cinema'를 소개한다. 영화 스토리라인의 상세한 텍스트 설명이 주어지면, 우리의 접근 방식은 먼저 전체 내러티브를 요약하는 키프레임 시퀀스를 생성한다. 이를 통해 스토리라인과 시각적 외관(예: 장면과 캐릭터)에서 장거리 일관성을 보장한다. 우리는 이 단계를 '탑다운 키프레임 계획'이라고 부른다. 이 키프레임들은 이후 장문맥 학습을 지원하는 비디오 합성 모델의 조건 신호로 사용되어, 이들 간의 시공간적 역동성을 생성한다. 이 단계는 '바텀업 비디오 합성'이라고 불린다. 다중 장면의 긴 내러티브 영화 작품을 안정적이고 효율적으로 생성하기 위해, 우리는 장문맥 비디오 데이터에 특화된 멀티모달 디퓨전 트랜스포머(MM-DiT)를 위한 인터리브 훈련 전략을 도입했다. 우리의 모델은 인터리브 데이터 쌍으로 구성된 특별히 선별된 시네마틱 데이터셋에서 훈련되었다. 실험 결과, Captain Cinema는 시각적으로 일관되고 내러티브가 일치하는 고품질의 짧은 영화를 자동으로 생성하는 데 있어 유리한 성능을 보여준다. 프로젝트 페이지: https://thecinema.ai
English
We present Captain Cinema, a generation framework for short movie generation.
Given a detailed textual description of a movie storyline, our approach firstly
generates a sequence of keyframes that outline the entire narrative, which
ensures long-range coherence in both the storyline and visual appearance (e.g.,
scenes and characters). We refer to this step as top-down keyframe planning.
These keyframes then serve as conditioning signals for a video synthesis model,
which supports long context learning, to produce the spatio-temporal dynamics
between them. This step is referred to as bottom-up video synthesis. To support
stable and efficient generation of multi-scene long narrative cinematic works,
we introduce an interleaved training strategy for Multimodal Diffusion
Transformers (MM-DiT), specifically adapted for long-context video data. Our
model is trained on a specially curated cinematic dataset consisting of
interleaved data pairs. Our experiments demonstrate that Captain Cinema
performs favorably in the automated creation of visually coherent and narrative
consistent short movies in high quality and efficiency. Project page:
https://thecinema.ai