ChatPaper.aiChatPaper

Eine Übersicht zur Generierung von Langvideo-Erzählungen: Architekturen, Konsistenz und filmische Qualität

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

July 9, 2025
papers.authors: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

papers.abstract

Trotz der bedeutenden Fortschritte, die bei Video-Generierungsmodellen erzielt wurden, können die derzeit besten Methoden nur Videos von 5 bis 16 Sekunden Länge erzeugen, die oft als „Langform-Videos“ bezeichnet werden. Darüber hinaus haben Videos, die 16 Sekunden überschreiten, Schwierigkeiten, konsistente Charakterdarstellungen und Szenenlayouts im gesamten narrativen Verlauf beizubehalten. Insbesondere bei mehrsubjektigen Langvideos gelingt es noch immer nicht, die Konsistenz der Charaktere und die Kohärenz der Bewegungen zu bewahren. Während einige Methoden Videos von bis zu 150 Sekunden Länge generieren können, leiden diese oft unter Rahmenredundanz und geringer zeitlicher Diversität. Jüngste Arbeiten haben versucht, Langform-Videos mit mehreren Charakteren, narrativer Kohärenz und hochauflösenden Details zu erzeugen. Wir haben 32 Arbeiten zur Videogenerierung umfassend untersucht, um Schlüsselkomponenten der Architektur und Trainingsstrategien zu identifizieren, die diese Qualitäten konsistent erzielen. Zudem erstellen wir eine umfassende, neuartige Taxonomie bestehender Methoden und präsentieren Vergleichstabellen, die die Arbeiten nach ihren architektonischen Designs und Leistungsmerkmalen kategorisieren.
English
Despite the significant progress that has been made in video generative models, existing state-of-the-art methods can only produce videos lasting 5-16 seconds, often labeled "long-form videos". Furthermore, videos exceeding 16 seconds struggle to maintain consistent character appearances and scene layouts throughout the narrative. In particular, multi-subject long videos still fail to preserve character consistency and motion coherence. While some methods can generate videos up to 150 seconds long, they often suffer from frame redundancy and low temporal diversity. Recent work has attempted to produce long-form videos featuring multiple characters, narrative coherence, and high-fidelity detail. We comprehensively studied 32 papers on video generation to identify key architectural components and training strategies that consistently yield these qualities. We also construct a comprehensive novel taxonomy of existing methods and present comparative tables that categorize papers by their architectural designs and performance characteristics.
PDF181July 11, 2025