ChatPaper.aiChatPaper

HoloCine : Génération holistique de récits vidéo longs multi-plans cinématographiques

HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

October 23, 2025
papers.authors: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu
cs.AI

papers.abstract

Les modèles de pointe en génération vidéo à partir de texte excellent dans la production de clips isolés, mais peinent à créer des récits cohérents et multi-plans, qui constituent l'essence même de la narration. Nous comblons ce "fossé narratif" avec HoloCine, un modèle générant des scènes entières de manière holistique pour garantir une cohérence globale du premier au dernier plan. Notre architecture permet un contrôle directionnel précis grâce à un mécanisme d'attention croisée fenêtrée qui localise les instructions textuelles sur des plans spécifiques, tandis qu'un schéma d'auto-attention éparse inter-plans (dense à l'intérieur des plans mais éparse entre eux) assure l'efficacité nécessaire pour une génération à l'échelle de la minute. Au-delà de l'établissement d'un nouvel état de l'art en cohérence narrative, HoloCine développe des capacités émergentes remarquables : une mémoire persistante des personnages et des scènes, et une compréhension intuitive des techniques cinématographiques. Notre travail marque un virage décisif de la synthèse de clips vers la réalisation automatisée, faisant de la création cinématographique de bout en bout un avenir tangible. Notre code est disponible à l'adresse : https://holo-cine.github.io/.
English
State-of-the-art text-to-video models excel at generating isolated clips but fall short of creating the coherent, multi-shot narratives, which are the essence of storytelling. We bridge this "narrative gap" with HoloCine, a model that generates entire scenes holistically to ensure global consistency from the first shot to the last. Our architecture achieves precise directorial control through a Window Cross-Attention mechanism that localizes text prompts to specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within shots but sparse between them) ensures the efficiency required for minute-scale generation. Beyond setting a new state-of-the-art in narrative coherence, HoloCine develops remarkable emergent abilities: a persistent memory for characters and scenes, and an intuitive grasp of cinematic techniques. Our work marks a pivotal shift from clip synthesis towards automated filmmaking, making end-to-end cinematic creation a tangible future. Our code is available at: https://holo-cine.github.io/.
PDF397December 2, 2025