InfinityStory: Неограниченное создание видео с согласованностью мира и персонализированными переходами между кадрами
InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions
March 4, 2026
Авторы: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI
Аннотация
Создание длинных повествовательных видеороликов с последовательной визуальной нарративностью остается серьезной проблемой в области синтеза видео. Мы представляем новую архитектуру, набор данных и модель, которые решают три ключевых ограничения: согласованность фона между кадрами, плавные межкадровые переходы с участием нескольких объектов и масштабируемость для повествований продолжительностью до часа. Наш подход включает конвейер генерации с согласованным фоном, который сохраняет визуальную целостность между сценами, поддерживая идентичность персонажей и пространственные отношения. Кроме того, мы предлагаем модуль синтеза видео с учетом переходов, который генерирует плавные склейки для сложных сценариев с появлением или исчезновением нескольких объектов в кадре, преодолевая ограничения предыдущих работ, ориентированных на единственный объект. Для поддержки этого подхода мы представляем синтетический набор данных из 10 000 последовательностей переходов с множеством объектов, охватывающих недостаточно представленные динамические композиции сцен. В тестах VBench модель InfinityStory демонстрирует наивысшие показатели согласованности фона (88.94) и согласованности объектов (82.11), а также лучший средний ранг (2.80), подтверждая улучшенную стабильность, более плавные переходы и лучшую временную согласованность.
English
Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.