HoloCine: Холистическая генерация кинематографических многокадровых длинных видео-нарративов
HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
October 23, 2025
Авторы: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu
cs.AI
Аннотация
Современные модели преобразования текста в видео превосходно генерируют отдельные клипы, но не способны создавать связные многокадровые нарративы, составляющие суть повествования. Мы преодолеваем этот «нарративный разрыв» с помощью HoloCine — модели, которая генерирует целые сцены целостно, обеспечивая глобальную согласованность от первого до последнего кадра. Наша архитектура достигает точного режиссерского контроля через механизм оконного перекрёстного внимания, который привязывает текстовые промпты к конкретным кадрам, в то время как разреженная модель самовнимания между кадрами (плотная внутри кадров, но разреженная между ними) гарантирует эффективность, необходимую для генерации в масштабе минут. Помимо установления нового стандарта в нарративной согласованности, HoloCine демонстрирует замечательные эмерджентные способности: устойчивую память о персонажах и сценах и интуитивное понимание кинематографических приемов. Наша работа знаменует ключевой переход от синтеза клипов к автоматизированному кинопроизводству, делая сквозное создание фильмов осязаемой перспективой. Наш код доступен по адресу: https://holo-cine.github.io/.
English
State-of-the-art text-to-video models excel at generating isolated clips but
fall short of creating the coherent, multi-shot narratives, which are the
essence of storytelling. We bridge this "narrative gap" with HoloCine, a model
that generates entire scenes holistically to ensure global consistency from the
first shot to the last. Our architecture achieves precise directorial control
through a Window Cross-Attention mechanism that localizes text prompts to
specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within
shots but sparse between them) ensures the efficiency required for minute-scale
generation. Beyond setting a new state-of-the-art in narrative coherence,
HoloCine develops remarkable emergent abilities: a persistent memory for
characters and scenes, and an intuitive grasp of cinematic techniques. Our work
marks a pivotal shift from clip synthesis towards automated filmmaking, making
end-to-end cinematic creation a tangible future. Our code is available at:
https://holo-cine.github.io/.