ChatPaper.aiChatPaper

MovieDreamer: 일관된 장기 시각적 시퀀스를 위한 계층적 생성

MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence

July 23, 2024
저자: Canyu Zhao, Mingyu Liu, Wen Wang, Jianlong Yuan, Hao Chen, Bo Zhang, Chunhua Shen
cs.AI

초록

최근 비디오 생성 분야의 발전은 주로 짧은 지속 시간의 콘텐츠를 위해 디퓨전 모델을 활용해 왔습니다. 그러나 이러한 접근 방식은 복잡한 내러티브를 모델링하고 영화와 같은 장편 비디오 제작에 필수적인 장기간의 캐릭터 일관성을 유지하는 데 있어서 종종 한계를 보입니다. 우리는 MovieDreamer라는 새로운 계층적 프레임워크를 제안하며, 이는 오토리그레시브 모델의 강점과 디퓨전 기반 렌더링을 통합하여 정교한 플롯 진행과 높은 시각적 충실도를 갖춘 장기간 비디오 생성을 선도합니다. 우리의 접근 방식은 전역적 내러티브 일관성을 위해 오토리그레시브 모델을 활용하여 시각적 토큰 시퀀스를 예측하고, 이를 디퓨전 렌더링을 통해 고품질 비디오 프레임으로 변환합니다. 이 방법은 복잡한 이야기를 관리 가능한 장면 촬영으로 분해하는 전통적인 영화 제작 프로세스와 유사합니다. 더 나아가, 우리는 다중 모달 스크립트를 사용하여 장면 설명에 상세한 캐릭터 정보와 시각적 스타일을 추가함으로써 장면 간의 연속성과 캐릭터 정체성을 강화합니다. 다양한 영화 장르에 걸친 광범위한 실험을 통해 우리의 접근 방식이 우수한 시각적 및 내러티브 품질을 달성할 뿐만 아니라 생성된 콘텐츠의 지속 시간을 현재의 한계를 넘어 크게 확장할 수 있음을 입증합니다. 홈페이지: https://aim-uofa.github.io/MovieDreamer/.
English
Recent advancements in video generation have primarily leveraged diffusion models for short-duration content. However, these approaches often fall short in modeling complex narratives and maintaining character consistency over extended periods, which is essential for long-form video production like movies. We propose MovieDreamer, a novel hierarchical framework that integrates the strengths of autoregressive models with diffusion-based rendering to pioneer long-duration video generation with intricate plot progressions and high visual fidelity. Our approach utilizes autoregressive models for global narrative coherence, predicting sequences of visual tokens that are subsequently transformed into high-quality video frames through diffusion rendering. This method is akin to traditional movie production processes, where complex stories are factorized down into manageable scene capturing. Further, we employ a multimodal script that enriches scene descriptions with detailed character information and visual style, enhancing continuity and character identity across scenes. We present extensive experiments across various movie genres, demonstrating that our approach not only achieves superior visual and narrative quality but also effectively extends the duration of generated content significantly beyond current capabilities. Homepage: https://aim-uofa.github.io/MovieDreamer/.

Summary

AI-Generated Summary

PDF312November 28, 2024