ChatPaper.aiChatPaper

Una Rassegna sulla Generazione di Narrazioni per Video Lunghi: Architetture, Coerenza e Qualità Cinematografica

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

July 9, 2025
Autori: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

Abstract

Nonostante i significativi progressi compiuti nei modelli generativi di video, i metodi all'avanguardia esistenti possono produrre solo video della durata di 5-16 secondi, spesso etichettati come "video di lunga durata". Inoltre, i video che superano i 16 secondi faticano a mantenere un aspetto coerente dei personaggi e una disposizione delle scene uniforme nel corso della narrazione. In particolare, i video lunghi con più soggetti non riescono ancora a preservare la coerenza dei personaggi e la fluidità dei movimenti. Sebbene alcuni metodi siano in grado di generare video fino a 150 secondi, spesso presentano ridondanza nei fotogrammi e una bassa diversità temporale. Recenti lavori hanno tentato di produrre video di lunga durata con più personaggi, coerenza narrativa e dettagli ad alta fedeltà. Abbiamo studiato in modo approfondito 32 articoli sulla generazione di video per identificare i componenti architetturali chiave e le strategie di addestramento che consentono di ottenere sistematicamente queste qualità. Abbiamo inoltre costruito una tassonomia completa e innovativa dei metodi esistenti e presentato tabelle comparative che categorizzano gli articoli in base ai loro progetti architetturali e alle caratteristiche prestazionali.
English
Despite the significant progress that has been made in video generative models, existing state-of-the-art methods can only produce videos lasting 5-16 seconds, often labeled "long-form videos". Furthermore, videos exceeding 16 seconds struggle to maintain consistent character appearances and scene layouts throughout the narrative. In particular, multi-subject long videos still fail to preserve character consistency and motion coherence. While some methods can generate videos up to 150 seconds long, they often suffer from frame redundancy and low temporal diversity. Recent work has attempted to produce long-form videos featuring multiple characters, narrative coherence, and high-fidelity detail. We comprehensively studied 32 papers on video generation to identify key architectural components and training strategies that consistently yield these qualities. We also construct a comprehensive novel taxonomy of existing methods and present comparative tables that categorize papers by their architectural designs and performance characteristics.
PDF221July 11, 2025