ChatPaper.aiChatPaper

InfinityStory: Unbegrenzte Videogenerierung mit Weltenkonsistenz und charakterbewussten Szenenübergängen

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

March 4, 2026
Autoren: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

Zusammenfassung

Die Erzeugung langformatiger Erzählvideos mit konsistenten visuellen Handlungssträngen bleibt eine große Herausforderung in der Videosynthese. Wir stellen ein neuartiges Framework, einen Datensatz und ein Modell vor, die drei kritische Einschränkungen adressieren: Hintergrundkonsistenz über verschiedene Einstellungen hinweg, nahtlose Mehrfachsubjekt-Übergänge zwischen Einstellungen und Skalierbarkeit auf stundenlange Erzählungen. Unser Ansatz führt eine hintergrundkonsistente Erzeugungspipeline ein, die die visuelle Kohärenz über Szenen hinweg bewahrt und gleichzeitig die Charakteridentität und räumlichen Beziehungen beibehält. Weiterhin schlagen wir ein übergangsbewusstes Videosynthesemodul vor, das flüssige Szenenübergänge für komplexe Szenarien erzeugt, in denen mehrere Subjekte den Bildrahmen betreten oder verlassen – und geht damit über die Einzelsubjekt-Beschränkungen früherer Arbeiten hinaus. Zur Unterstützung tragen wir einen synthetischen Datensatz von 10.000 Mehrfachsubjekt-Übergangssequenzen bei, der unterrepräsentierte dynamische Szenenkompositionen abdeckt. In VBench erzielt InfinityStory die höchste Hintergrundkonsistenz (88,94), die höchste Subjektkonsistenz (82,11) und den besten durchschnittlichen Gesamtrang (2,80), was verbesserte Stabilität, flüssigere Übergänge und bessere zeitliche Kohärenz zeigt.
English
Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.
PDF52March 6, 2026