Обзор генерации повествования для длинных видео: архитектуры, согласованность и кинематографическое качество
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality
July 9, 2025
Авторы: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI
Аннотация
Несмотря на значительный прогресс, достигнутый в области генеративных моделей для видео, современные методы способны создавать видео продолжительностью всего 5–16 секунд, которые часто обозначаются как «длинные видео». Кроме того, видео длительностью более 16 секунд испытывают трудности с поддержанием последовательности внешнего вида персонажей и композиции сцен на протяжении всего повествования. В частности, длинные видео с несколькими субъектами по-прежнему не могут сохранить согласованность персонажей и плавность движений. Хотя некоторые методы способны генерировать видео длительностью до 150 секунд, они часто страдают от избыточности кадров и низкого временного разнообразия. В последних работах предпринимались попытки создания длинных видео с несколькими персонажами, повествовательной согласованностью и высоким уровнем детализации. Мы провели всестороннее изучение 32 статей, посвященных генерации видео, чтобы выявить ключевые архитектурные компоненты и стратегии обучения, которые стабильно обеспечивают эти качества. Также мы разработали новую всеобъемлющую таксономию существующих методов и представили сравнительные таблицы, классифицирующие статьи по их архитектурным решениям и характеристикам производительности.
English
Despite the significant progress that has been made in video generative
models, existing state-of-the-art methods can only produce videos lasting 5-16
seconds, often labeled "long-form videos". Furthermore, videos exceeding 16
seconds struggle to maintain consistent character appearances and scene layouts
throughout the narrative. In particular, multi-subject long videos still fail
to preserve character consistency and motion coherence. While some methods can
generate videos up to 150 seconds long, they often suffer from frame redundancy
and low temporal diversity. Recent work has attempted to produce long-form
videos featuring multiple characters, narrative coherence, and high-fidelity
detail. We comprehensively studied 32 papers on video generation to identify
key architectural components and training strategies that consistently yield
these qualities. We also construct a comprehensive novel taxonomy of existing
methods and present comparative tables that categorize papers by their
architectural designs and performance characteristics.