ChatPaper.aiChatPaper

長編動画のストーリーテリング生成に関する調査:アーキテクチャ、 一貫性、映画的な品質

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

July 9, 2025
著者: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

要旨

ビデオ生成モデルにおける大きな進展にもかかわらず、現状の最先端手法では5~16秒のビデオしか生成できず、しばしば「ロングフォームビデオ」と称されています。さらに、16秒を超えるビデオでは、物語全体を通じてキャラクターの外見やシーンレイアウトの一貫性を維持することが困難です。特に、複数の主体が登場する長尺ビデオでは、キャラクターの一貫性と動きの連続性を保つことがまだできていません。一部の手法では150秒までのビデオを生成できるものの、フレームの冗長性や時間的な多様性の低さが課題となっています。最近の研究では、複数のキャラクターが登場し、物語の一貫性と高精細なディテールを備えたロングフォームビデオの生成が試みられています。我々は、これらの品質を一貫して実現するための主要なアーキテクチャ構成要素と学習戦略を特定するため、ビデオ生成に関する32本の論文を包括的に調査しました。また、既存手法の包括的な新たな分類体系を構築し、アーキテクチャ設計と性能特性に基づいて論文を分類した比較表を提示します。
English
Despite the significant progress that has been made in video generative models, existing state-of-the-art methods can only produce videos lasting 5-16 seconds, often labeled "long-form videos". Furthermore, videos exceeding 16 seconds struggle to maintain consistent character appearances and scene layouts throughout the narrative. In particular, multi-subject long videos still fail to preserve character consistency and motion coherence. While some methods can generate videos up to 150 seconds long, they often suffer from frame redundancy and low temporal diversity. Recent work has attempted to produce long-form videos featuring multiple characters, narrative coherence, and high-fidelity detail. We comprehensively studied 32 papers on video generation to identify key architectural components and training strategies that consistently yield these qualities. We also construct a comprehensive novel taxonomy of existing methods and present comparative tables that categorize papers by their architectural designs and performance characteristics.
PDF181July 11, 2025