InfinityStory: Generación Ilimitada de Vídeos con Consistencia Mundial y Transiciones de Plano Conscientes de los Personajes
InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions
March 4, 2026
Autores: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI
Resumen
La generación de videos narrativos de formato largo con narrativas visuales consistentes sigue siendo un desafío significativo en la síntesis de video. Presentamos un marco novedoso, un conjunto de datos y un modelo que abordan tres limitaciones críticas: la consistencia del fondo entre planos, las transiciones fluidas de plano a plano con múltiples sujetos y la escalabilidad a narrativas de una hora de duración. Nuestro enfoque introduce una canalización de generación con consistencia de fondo que mantiene la coherencia visual entre escenas mientras preserva la identidad de los personajes y las relaciones espaciales. Además, proponemos un módulo de síntesis de video consciente de las transiciones que genera transiciones suaves de plano para escenarios complejos que involucran múltiples sujetos entrando o saliendo del cuadro, superando las limitaciones de sujeto único de trabajos anteriores. Para respaldar esto, contribuimos con un conjunto de datos sintético de 10,000 secuencias de transición con múltiples sujetos que cubre composiciones de escena dinámicas poco representadas. En VBench, InfinityStory logra la mayor Consistencia de Fondo (88.94), la mayor Consistencia de Sujeto (82.11) y el mejor rango promedio general (2.80), demostrando una estabilidad mejorada, transiciones más suaves y una mejor coherencia temporal.
English
Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.