InfinityStory: Generazione Video Illimitata con Coerenza Mondiale e Transizioni di Inquadratura Consapevoli dei Personaggi
InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions
March 4, 2026
Autori: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI
Abstract
La generazione di video narrativi di lunga durata con narrazioni visive coerenti rimane una sfida significativa nella sintesi video. Presentiamo un framework innovativo, un dataset e un modello che affrontano tre limitazioni critiche: la coerenza dello sfondo tra le inquadrature, le transizioni fluide da un'inquadratura all'altra con più soggetti e la scalabilità per narrazioni della durata di ore. Il nostro approccio introduce una pipeline di generazione con sfondo coerente che mantiene la coerenza visiva tra le scene preservando l'identità dei personaggi e le relazioni spaziali. Proponiamo inoltre un modulo di sintesi video con consapevolezza delle transizioni che genera transizioni fluide tra inquadrature per scenari complessi che coinvolgono più soggetti che entrano o escono dal frame, superando le limitazioni dei lavori precedenti incentrati su un singolo soggetto. A supporto, contribuiamo con un dataset sintetico di 10.000 sequenze di transizione multi-soggetto che coprono composizioni di scene dinamiche sottorappresentate. Su VBench, InfinityStory raggiunge il punteggio più alto in Coerenza dello Sfondo (88.94), il più alto in Coerenza del Soggetto (82.11) e la migliore posizione media complessiva (2.80), dimostrando una stabilità migliorata, transizioni più fluide e una migliore coerenza temporale.
English
Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.