ChatPaper.aiChatPaper

InfinityStory: 世界の一貫性とキャラクター認識的ショット遷移を備えた無限のビデオ生成

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

March 4, 2026
著者: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

要旨

長編ストーリーテリング動画を、一貫した視覚的ナラティブで生成することは、映像合成における重要な課題である。本論文は、背景の一貫性、複数被写体間のシームレスなショット遷移、長時間ナラティブへの拡張性という3つの核心的制約に対処する新規フレームワーク、データセット、およびモデルを提案する。我々の手法は、背景一貫性生成パイプラインを導入し、キャラクターの同一性と空間的関係を保持しながら、シーン間の視覚的整合性を維持する。さらに、単一被写体に限定された従来研究の限界を超え、複数の被写体がフレーム内に出入りする複雑なシナリオに対応する、遷移を考慮した滑らかなショット遷移生成モジュールを提案する。これを支援するため、従来十分に扱われてこなかった動的なシーン構成をカバーする、10,000の複数被写体遷移シーケンスから成る合成データセットを構築した。VBenchにおける評価では、InfinityStoryはBackground Consistency (88.94)、Subject Consistency (82.11) において最高スコアを達成し、全体平均ランク (2.80) でも最高位となり、安定性の向上、より滑らかな遷移、優れた時間的整合性を示した。
English
Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.
PDF52March 6, 2026