Une étude sur la génération de narration pour les vidéos longues : architectures, cohérence et qualité cinématographique
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality
July 9, 2025
papers.authors: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI
papers.abstract
Malgré les progrès significatifs réalisés dans les modèles génératifs de vidéos, les méthodes actuelles les plus avancées ne peuvent produire que des vidéos d'une durée de 5 à 16 secondes, souvent qualifiées de "vidéos longues". De plus, les vidéos dépassant 16 secondes peinent à maintenir des apparences de personnages et des dispositions de scènes cohérentes tout au long du récit. En particulier, les vidéos longues mettant en scène plusieurs sujets échouent encore à préserver la cohérence des personnages et la fluidité des mouvements. Bien que certaines méthodes puissent générer des vidéos allant jusqu'à 150 secondes, elles souffrent souvent de redondance d'images et d'une faible diversité temporelle. Des travaux récents ont tenté de produire des vidéos longues mettant en scène plusieurs personnages, avec une cohérence narrative et des détails de haute fidélité. Nous avons étudié de manière exhaustive 32 articles sur la génération de vidéos pour identifier les composants architecturaux clés et les stratégies d'entraînement qui permettent systématiquement d'obtenir ces qualités. Nous avons également construit une taxonomie novatrice et complète des méthodes existantes et présenté des tableaux comparatifs qui classent les articles en fonction de leurs conceptions architecturales et de leurs caractéristiques de performance.
English
Despite the significant progress that has been made in video generative
models, existing state-of-the-art methods can only produce videos lasting 5-16
seconds, often labeled "long-form videos". Furthermore, videos exceeding 16
seconds struggle to maintain consistent character appearances and scene layouts
throughout the narrative. In particular, multi-subject long videos still fail
to preserve character consistency and motion coherence. While some methods can
generate videos up to 150 seconds long, they often suffer from frame redundancy
and low temporal diversity. Recent work has attempted to produce long-form
videos featuring multiple characters, narrative coherence, and high-fidelity
detail. We comprehensively studied 32 papers on video generation to identify
key architectural components and training strategies that consistently yield
these qualities. We also construct a comprehensive novel taxonomy of existing
methods and present comparative tables that categorize papers by their
architectural designs and performance characteristics.