ChatPaper.aiChatPaper

HoloCine: Holistische Erzeugung kinematografischer Mehrfach-Einstellungen für lange Video-Narrative

HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

October 23, 2025
papers.authors: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu
cs.AI

papers.abstract

Aktuelle Text-zu-Video-Modelle erzeugen hervorragend isolierte Clips, scheitern jedoch an der Erstellung kohärenter, mehrteiliger Erzählungen, die den Kern des Geschichtenerzählens ausmachen. Wir schließen diese "Narrationslücke" mit HoloCine, einem Modell, das komplette Szenen ganzheitlich generiert, um globale Konsistenz von der ersten bis zur letzten Einstellung zu gewährleisten. Unsere Architektur erreicht eine präzise Regiekontrolle durch einen Window Cross-Attention-Mechanismus, der Textprompts bestimmten Einstellungen zuordnet, während ein Sparse Inter-Shot Self-Attention-Muster (dicht innerhalb von Einstellungen, aber spärlich zwischen ihnen) die für die Erzeugung im Minutenmaßstab erforderliche Effizienz sicherstellt. Neben einem neuen State-of-the-Art in der narrativen Kohärenz entwickelt HoloCine bemerkenswerte emergente Fähigkeiten: ein persistentes Gedächtnis für Charaktere und Schauplätze sowie ein intuitives Verständnis filmischer Techniken. Unsere Arbeit markiert einen entscheidenden Wandel von der Clip-Synthese hin zum automatisierten Filmemachen und macht die end-to-end filmische Kreation zu einer greifbaren Zukunft. Unser Code ist verfügbar unter: https://holo-cine.github.io/.
English
State-of-the-art text-to-video models excel at generating isolated clips but fall short of creating the coherent, multi-shot narratives, which are the essence of storytelling. We bridge this "narrative gap" with HoloCine, a model that generates entire scenes holistically to ensure global consistency from the first shot to the last. Our architecture achieves precise directorial control through a Window Cross-Attention mechanism that localizes text prompts to specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within shots but sparse between them) ensures the efficiency required for minute-scale generation. Beyond setting a new state-of-the-art in narrative coherence, HoloCine develops remarkable emergent abilities: a persistent memory for characters and scenes, and an intuitive grasp of cinematic techniques. Our work marks a pivotal shift from clip synthesis towards automated filmmaking, making end-to-end cinematic creation a tangible future. Our code is available at: https://holo-cine.github.io/.
PDF397December 2, 2025