InfinityStory: Geração Ilimitada de Vídeos com Consistência Mundial e Transições de Cena Conscientes do Personagem

Resumo

A geração de vídeos de narrativa longa com narrativas visuais consistentes continua a ser um desafio significativo na síntese de vídeo. Apresentamos uma nova estrutura, um conjunto de dados e um modelo que abordam três limitações críticas: a consistência do plano de fundo entre tomadas, transições perfeitas de tomada para tomada com múltiplos sujeitos e a escalabilidade para narrativas com duração de horas. A nossa abordagem introduz um pipeline de geração com consistência de fundo que mantém a coerência visual entre cenas, preservando a identidade das personagens e as relações espaciais. Propomos ainda um módulo de síntese de vídeo com consciência de transição que gera transições suaves de tomada para cenários complexos envolvendo múltiplos sujeitos a entrar ou sair de planos, indo além das limitações de sujeito único de trabalhos anteriores. Para suportar isto, contribuímos com um conjunto de dados sintético de 10.000 sequências de transição com múltiplos sujeitos, abrangendo composições de cena dinâmicas sub-representadas. No VBench, o InfinityStory alcança a mais alta Consistência de Fundo (88.94), a mais alta Consistência de Sujeito (82.11) e a melhor classificação média geral (2.80), demonstrando estabilidade melhorada, transições mais suaves e melhor coerência temporal.

English

Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.