ChatPaper.aiChatPaper

InfinityStory: Onbeperkte Videogeneratie met Wereldconsistentie en Karakterbewuste Shotovergangen

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

March 4, 2026
Auteurs: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

Samenvatting

Het genereren van langdurige verhalende video's met consistente visuele narratieven blijft een grote uitdaging in videosynthese. Wij presenteren een nieuw framework, een dataset en een model dat drie kritieke beperkingen aanpakt: achtergrondconsistentie tussen shots, naadloze overgangen tussen shots met meerdere subjecten, en schaalbaarheid naar urenlange verhalen. Onze aanpak introduceert een generatiepijplijn met achtergrondconsistentie die visuele samenhang tussen scènes behoudt, terwijl karakteridentiteit en ruimtelijke relaties bewaard blijven. Verder stellen we een transitiebewuste videosynthesemodule voor die vloeiende shotovergangen genereert voor complexe scenario's waarbij meerdere subjecten beeldin- of uitgaan, wat verder gaat dan de enkelvoudige-subjectbeperkingen van eerder werk. Om dit te ondersteunen, dragen we bij met een synthetische dataset van 10.000 multi-subject transitie-sequenties die ondervertegenwoordigde dynamische scènecomposities omvat. Op VBench behaalt InfinityStory de hoogste Achtergrondconsistentie (88.94), hoogste Subjectconsistentie (82.11) en de beste algemene gemiddelde rangschikking (2.80), wat verbeterde stabiliteit, vloeiendere overgangen en betere temporele coherentie aantoont.
English
Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.
PDF83March 17, 2026