ChatPaper.aiChatPaper

InfinityStory : Génération vidéo illimitée avec cohérence mondiale et transitions de plans sensibles aux personnages

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

March 4, 2026
Auteurs: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

Résumé

La génération de vidéos narratives de longue durée avec une continuité visuelle cohérente reste un défi majeur dans le domaine de la synthèse vidéo. Nous présentons un nouveau cadre méthodologique, un jeu de données et un modèle qui répondent à trois limitations critiques : la cohérence des arrière-plans d'un plan à l'autre, les transitions fluides entre plans impliquant plusieurs sujets, et l'extensibilité à des récits d'une heure. Notre approche introduit un pipeline de génération garantissant la cohérence des arrière-plans, qui préserve l'homogénéité visuelle entre les scènes tout en maintenant l'identité des personnages et les relations spatiales. Nous proposons en outre un module de synthèse vidéo sensible aux transitions, qui génère des enchaînements de plans fluides pour des scénarios complexes impliquant l'entrée ou la sortie de cadre de multiples sujets, dépassant ainsi les limitations des travaux antérieurs centrés sur un sujet unique. Pour étayer cette approche, nous contribuons avec un jeu de données synthétiques de 10 000 séquences de transitions multi-sujets couvrant des compositions scéniques dynamiques sous-représentées. Sur VBench, InfinityStory atteint le score le plus élevé en Cohérence des Arrière-plans (88,94), le score le plus élevé en Cohérence des Sujets (82,11) et le meilleur rang moyen global (2,80), démontrant une stabilité améliorée, des transitions plus fluides et une meilleure cohérence temporelle.
English
Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.
PDF52March 6, 2026