Una Revisión sobre la Generación de Narrativas en Videos Largos: Arquitecturas, Consistencia y Calidad Cinematográfica
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality
July 9, 2025
Autores: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI
Resumen
A pesar del progreso significativo que se ha logrado en los modelos generativos de video, los métodos más avanzados actualmente solo pueden producir videos que duran entre 5 y 16 segundos, a menudo etiquetados como "videos de formato largo". Además, los videos que superan los 16 segundos tienen dificultades para mantener apariencias consistentes de los personajes y diseños de escenas a lo largo de la narrativa. En particular, los videos largos con múltiples sujetos aún no logran preservar la consistencia de los personajes y la coherencia del movimiento. Si bien algunos métodos pueden generar videos de hasta 150 segundos de duración, a menudo sufren de redundancia de fotogramas y baja diversidad temporal. Trabajos recientes han intentado producir videos de formato largo que incluyen múltiples personajes, coherencia narrativa y detalles de alta fidelidad. Hemos estudiado exhaustivamente 32 artículos sobre generación de video para identificar componentes arquitectónicos clave y estrategias de entrenamiento que consistentemente producen estas cualidades. También construimos una taxonomía novedosa y exhaustiva de los métodos existentes y presentamos tablas comparativas que categorizan los artículos según sus diseños arquitectónicos y características de rendimiento.
English
Despite the significant progress that has been made in video generative
models, existing state-of-the-art methods can only produce videos lasting 5-16
seconds, often labeled "long-form videos". Furthermore, videos exceeding 16
seconds struggle to maintain consistent character appearances and scene layouts
throughout the narrative. In particular, multi-subject long videos still fail
to preserve character consistency and motion coherence. While some methods can
generate videos up to 150 seconds long, they often suffer from frame redundancy
and low temporal diversity. Recent work has attempted to produce long-form
videos featuring multiple characters, narrative coherence, and high-fidelity
detail. We comprehensively studied 32 papers on video generation to identify
key architectural components and training strategies that consistently yield
these qualities. We also construct a comprehensive novel taxonomy of existing
methods and present comparative tables that categorize papers by their
architectural designs and performance characteristics.