HoloCine: Geração Holística de Narrativas Longas de Vídeo com Múltiplas Cenas Cinematográficas
HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
October 23, 2025
Autores: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu
cs.AI
Resumo
Os modelos state-of-the-art de texto-para-vídeo se destacam na geração de clipes isolados, mas ficam aquém na criação de narrativas coerentes e com múltiplos planos, que são a essência da contação de histórias. Nós superamos essa "lacuna narrativa" com o HoloCine, um modelo que gera cenas inteiras de forma holística para garantir uma consistência global do primeiro ao último plano. Nossa arquitetura alcança um controle direcional preciso por meio de um mecanismo de Janela de Atenção Cruzada (Window Cross-Attention) que localiza os prompts de texto em planos específicos, enquanto um padrão de Autoatenção Esparsa entre Planos (densa dentro dos planos, mas esparsa entre eles) garante a eficiência necessária para a geração em escala de minutos. Além de estabelecer um novo estado da arte em coerência narrativa, o HoloCine desenvolve notáveis habilidades emergentes: uma memória persistente para personagens e cenários, e uma compreensão intuitiva de técnicas cinematográficas. Nosso trabalho marca uma mudança pivotal da síntese de clipes para a cinematografia automatizada, tornando a criação cinematográfica de ponta a ponta um futuro tangível. Nosso código está disponível em: https://holo-cine.github.io/.
English
State-of-the-art text-to-video models excel at generating isolated clips but
fall short of creating the coherent, multi-shot narratives, which are the
essence of storytelling. We bridge this "narrative gap" with HoloCine, a model
that generates entire scenes holistically to ensure global consistency from the
first shot to the last. Our architecture achieves precise directorial control
through a Window Cross-Attention mechanism that localizes text prompts to
specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within
shots but sparse between them) ensures the efficiency required for minute-scale
generation. Beyond setting a new state-of-the-art in narrative coherence,
HoloCine develops remarkable emergent abilities: a persistent memory for
characters and scenes, and an intuitive grasp of cinematic techniques. Our work
marks a pivotal shift from clip synthesis towards automated filmmaking, making
end-to-end cinematic creation a tangible future. Our code is available at:
https://holo-cine.github.io/.