ChatPaper.aiChatPaper

장편 비디오 스토리텔링 생성에 관한 연구: 아키텍처, 일관성, 그리고 영화적 품질

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

July 9, 2025
저자: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
cs.AI

초록

비디오 생성 모델에서 상당한 진전이 있었음에도 불구하고, 현재 최첨단 기술로도 5~16초 길이의 비디오만 생성할 수 있으며, 이를 종종 "장편 비디오"로 분류합니다. 더욱이, 16초를 초과하는 비디오는 내러티브 전반에 걸쳐 일관된 캐릭터 외모와 장면 구성을 유지하는 데 어려움을 겪습니다. 특히, 다중 주체를 다루는 장편 비디오는 여전히 캐릭터 일관성과 움직임의 일관성을 유지하지 못하고 있습니다. 일부 방법론은 최대 150초 길이의 비디오를 생성할 수 있지만, 프레임 중복과 낮은 시간적 다양성 문제를 자주 겪습니다. 최근 연구에서는 다중 캐릭터, 내러티브 일관성, 그리고 고해상도 디테일을 갖춘 장편 비디오를 생성하려는 시도가 이루어졌습니다. 우리는 이러한 특성을 일관되게 달성하는 주요 아키텍처 구성 요소와 훈련 전략을 식별하기 위해 비디오 생성 관련 32편의 논문을 포괄적으로 연구했습니다. 또한, 기존 방법론을 체계적으로 분류한 새로운 분류 체계를 구축하고, 아키텍처 설계와 성능 특성에 따라 논문을 분류한 비교 표를 제시합니다.
English
Despite the significant progress that has been made in video generative models, existing state-of-the-art methods can only produce videos lasting 5-16 seconds, often labeled "long-form videos". Furthermore, videos exceeding 16 seconds struggle to maintain consistent character appearances and scene layouts throughout the narrative. In particular, multi-subject long videos still fail to preserve character consistency and motion coherence. While some methods can generate videos up to 150 seconds long, they often suffer from frame redundancy and low temporal diversity. Recent work has attempted to produce long-form videos featuring multiple characters, narrative coherence, and high-fidelity detail. We comprehensively studied 32 papers on video generation to identify key architectural components and training strategies that consistently yield these qualities. We also construct a comprehensive novel taxonomy of existing methods and present comparative tables that categorize papers by their architectural designs and performance characteristics.
PDF181July 11, 2025