HoloCine: Generación Holística de Narrativas de Video Largos con Planos Múltiples Cinematográficos
HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
October 23, 2025
Autores: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu
cs.AI
Resumen
Los modelos de última generación de texto a vídeo sobresalen en la generación de clips aislados, pero se quedan cortos a la hora de crear las narrativas coherentes y de múltiples planos que son la esencia de la narrativa audiovisual. Cerramos esta "brecha narrativa" con HoloCine, un modelo que genera escenas completas de forma holística para garantizar una coherencia global desde el primer plano hasta el último. Nuestra arquitectura logra un control de dirección preciso mediante un mecanismo de Ventana de Atención Cruzada que localiza las indicaciones de texto en planos específicos, mientras que un patrón de Atención Interna Dispersa entre Planos (densa dentro de los planos pero dispersa entre ellos) garantiza la eficiencia necesaria para la generación a escala de minutos. Más allá de establecer un nuevo estado del arte en coherencia narrativa, HoloCine desarrolla notables habilidades emergentes: una memoria persistente para personajes y escenas, y una comprensión intuitiva de las técnicas cinematográficas. Nuestro trabajo marca un cambio pivotal desde la síntesis de clips hacia la cinematografía automatizada, haciendo que la creación cinematográfica de extremo a extremo sea un futuro tangible. Nuestro código está disponible en: https://holo-cine.github.io/.
English
State-of-the-art text-to-video models excel at generating isolated clips but
fall short of creating the coherent, multi-shot narratives, which are the
essence of storytelling. We bridge this "narrative gap" with HoloCine, a model
that generates entire scenes holistically to ensure global consistency from the
first shot to the last. Our architecture achieves precise directorial control
through a Window Cross-Attention mechanism that localizes text prompts to
specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within
shots but sparse between them) ensures the efficiency required for minute-scale
generation. Beyond setting a new state-of-the-art in narrative coherence,
HoloCine develops remarkable emergent abilities: a persistent memory for
characters and scenes, and an intuitive grasp of cinematic techniques. Our work
marks a pivotal shift from clip synthesis towards automated filmmaking, making
end-to-end cinematic creation a tangible future. Our code is available at:
https://holo-cine.github.io/.