ChatPaper.aiChatPaper

Een overzicht van lange-video verhaalgeneratie: Architecturen, Consistentie en Cinematografische Kwaliteit

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

July 9, 2025
Auteurs: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

Samenvatting

Ondanks de aanzienlijke vooruitgang die is geboekt in videogeneratieve modellen, kunnen bestaande state-of-the-art methoden alleen video's produceren die 5-16 seconden duren, vaak aangeduid als "lange-video's". Bovendien hebben video's die langer dan 16 seconden duren moeite om consistente karakterverschijningen en scène-indelingen gedurende het verhaal te behouden. In het bijzonder slagen multi-subject lange video's er nog steeds niet in om karakterconsistentie en bewegingscoherentie te behouden. Hoewel sommige methoden video's van maximaal 150 seconden kunnen genereren, lijden deze vaak aan frame-redundantie en lage temporele diversiteit. Recent werk heeft geprobeerd lange-video's te produceren met meerdere karakters, narratieve coherentie en hoogwaardige details. We hebben 32 papers over videogeneratie grondig bestudeerd om belangrijke architectonische componenten en trainingsstrategieën te identificeren die consistent deze kwaliteiten opleveren. We construeren ook een uitgebreide nieuwe taxonomie van bestaande methoden en presenteren vergelijkende tabellen die papers categoriseren op basis van hun architectonische ontwerpen en prestatiekenmerken.
English
Despite the significant progress that has been made in video generative models, existing state-of-the-art methods can only produce videos lasting 5-16 seconds, often labeled "long-form videos". Furthermore, videos exceeding 16 seconds struggle to maintain consistent character appearances and scene layouts throughout the narrative. In particular, multi-subject long videos still fail to preserve character consistency and motion coherence. While some methods can generate videos up to 150 seconds long, they often suffer from frame redundancy and low temporal diversity. Recent work has attempted to produce long-form videos featuring multiple characters, narrative coherence, and high-fidelity detail. We comprehensively studied 32 papers on video generation to identify key architectural components and training strategies that consistently yield these qualities. We also construct a comprehensive novel taxonomy of existing methods and present comparative tables that categorize papers by their architectural designs and performance characteristics.
PDF221July 11, 2025