ChatPaper.aiChatPaper

HoloCine: Generazione Olistica di Narrative Video Lunghe con Scena Multipla Cinematografica

HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

October 23, 2025
Autori: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu
cs.AI

Abstract

I modelli all'avanguardia per la generazione di video da testo eccellono nella creazione di clip isolate, ma non riescono a produrre narrazioni coerenti e multi-inquadratura, che sono l'essenza dello storytelling. Colmiamo questo "divario narrativo" con HoloCine, un modello che genera intere scene in modo olistico per garantire una coerenza globale dalla prima all'ultima inquadratura. La nostra architettura raggiunge un controllo registico preciso attraverso un meccanismo di Window Cross-Attention che localizza i prompt di testo in inquadrature specifiche, mentre uno schema di Sparse Inter-Shot Self-Attention (denso all'interno delle inquadrature ma sparso tra di esse) assicura l'efficienza necessaria per generazioni della durata di minuti. Oltre a stabilire un nuovo stato dell'arte nella coerenza narrativa, HoloCine sviluppa notevoli abilità emergenti: una memoria persistente per personaggi e scene, e una comprensione intuitiva delle tecniche cinematografiche. Il nostro lavoro segna un cambiamento cruciale dalla sintesi di clip verso una cinematografia automatizzata, rendendo la creazione cinematografica end-to-end un futuro tangibile. Il nostro codice è disponibile all'indirizzo: https://holo-cine.github.io/.
English
State-of-the-art text-to-video models excel at generating isolated clips but fall short of creating the coherent, multi-shot narratives, which are the essence of storytelling. We bridge this "narrative gap" with HoloCine, a model that generates entire scenes holistically to ensure global consistency from the first shot to the last. Our architecture achieves precise directorial control through a Window Cross-Attention mechanism that localizes text prompts to specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within shots but sparse between them) ensures the efficiency required for minute-scale generation. Beyond setting a new state-of-the-art in narrative coherence, HoloCine develops remarkable emergent abilities: a persistent memory for characters and scenes, and an intuitive grasp of cinematic techniques. Our work marks a pivotal shift from clip synthesis towards automated filmmaking, making end-to-end cinematic creation a tangible future. Our code is available at: https://holo-cine.github.io/.
PDF397December 2, 2025