HoloCine:映画的マルチショットによる長編ビデオナラティブの統合的生成
HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
October 23, 2025
著者: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu
cs.AI
要旨
最先端のテキスト動画生成モデルは個別のクリップ生成には優れるものの、物語の本質である一貫性のあるマルチショット叙事表現の創出には至っていない。我々はこの「ナラティブギャップ」を埋めるHoloCineを提案する。このモデルはシーン全体を包括的に生成し、最初のショットから最後までグローバルな一貫性を保証する。ウィンドウ交差注意機構によってテキストプロンプトを特定ショットに局所化する精密な演出制御を実現し、疎インターショット自己注意パターン(ショット内は密、ショット間は疎)により分単位の生成に必要な効率性を確保する。物語の一貫性で新たな最先端を確立しただけでなく、HoloCineは顕著な創発能力として、キャラクターやシーンへの持続的記憶と映画的技法の直感的理解を発展させる。本研究はクリップ合成から自動映画制作への決定的転換を示し、エンドツーエンドの映画的創作を現実的な未来とする。コードはhttps://holo-cine.github.io/で公開されている。
English
State-of-the-art text-to-video models excel at generating isolated clips but
fall short of creating the coherent, multi-shot narratives, which are the
essence of storytelling. We bridge this "narrative gap" with HoloCine, a model
that generates entire scenes holistically to ensure global consistency from the
first shot to the last. Our architecture achieves precise directorial control
through a Window Cross-Attention mechanism that localizes text prompts to
specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within
shots but sparse between them) ensures the efficiency required for minute-scale
generation. Beyond setting a new state-of-the-art in narrative coherence,
HoloCine develops remarkable emergent abilities: a persistent memory for
characters and scenes, and an intuitive grasp of cinematic techniques. Our work
marks a pivotal shift from clip synthesis towards automated filmmaking, making
end-to-end cinematic creation a tangible future. Our code is available at:
https://holo-cine.github.io/.