ChatPaper.aiChatPaper

HoloCine: Holistische Generatie van Cinematische Langere Videovertellingen met Meerdere Opnames

HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

October 23, 2025
Auteurs: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu
cs.AI

Samenvatting

State-of-the-art tekst-naar-video-modellen blinken uit in het genereren van geïsoleerde clips, maar schieten tekort in het creëren van coherente, multi-shot verhalen, de essentie van storytelling. Wij overbruggen deze "narratieve kloof" met HoloCine, een model dat complete scènes holistisch genereert om globale consistentie van de eerste tot de laatste shot te garanderen. Onze architectuur bereikt precieze regiecontrole via een Window Cross-Attention-mechanisme dat tekstprompts lokaliseert naar specifieke shots, terwijl een Sparse Inter-Shot Self-Attention-patroon (dicht binnen shots maar spaarzaam ertussen) de vereiste efficiëntie waarborgt voor generatie op minuutschaal. Naast het vestigen van een nieuwe state-of-the-art in narratieve coherentie, ontwikkelt HoloCine opmerkelijke emergentie-vaardigheden: een persistent geheugen voor personages en scènes, en een intuïtief begrip van filmtechnieken. Ons werk markeert een cruciale verschuiving van clipsynthese naar geautomatiseerde filmproductie, waardoor end-to-end cinematische creatie een tastbare toekomst wordt. Onze code is beschikbaar op: https://holo-cine.github.io/.
English
State-of-the-art text-to-video models excel at generating isolated clips but fall short of creating the coherent, multi-shot narratives, which are the essence of storytelling. We bridge this "narrative gap" with HoloCine, a model that generates entire scenes holistically to ensure global consistency from the first shot to the last. Our architecture achieves precise directorial control through a Window Cross-Attention mechanism that localizes text prompts to specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within shots but sparse between them) ensures the efficiency required for minute-scale generation. Beyond setting a new state-of-the-art in narrative coherence, HoloCine develops remarkable emergent abilities: a persistent memory for characters and scenes, and an intuitive grasp of cinematic techniques. Our work marks a pivotal shift from clip synthesis towards automated filmmaking, making end-to-end cinematic creation a tangible future. Our code is available at: https://holo-cine.github.io/.
PDF397December 2, 2025