ChatPaper.aiChatPaper

DreaMontage: 임의 프레임 기반 원샷 비디오 생성

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

December 24, 2025
저자: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu
cs.AI

초록

'원샷' 기법은 영화 제작에서 독특하고 정교한 미학을 구현하는 방식입니다. 그러나 실제 적용에는 과도한 비용과 복잡한 현실적 제약으로 인해 어려움이 따릅니다. 최근 등장한 비디오 생성 모델은 가상의 대안을 제공하지만, 기존 접근법은 단순한 클립 연접에 의존하여 시각적 매끄러움과 시간적 일관성을 유지하지 못하는 경우가 많습니다. 본 논문에서는 다양한 사용자 입력을 통해 원활하고 표현력 있으며 장시간 지속되는 원샷 비디오를 합성할 수 있는 임의 프레임 기반 생성 프레임워크인 DreaMontage를 소개합니다. 이를 위해 세 가지 주요 차원에서 과제를 해결합니다. (i) DiT 아키텍처에 경량 중간 조건 설정 메커니즘을 통합합니다. 기본 학습 데이터를 효과적으로 활용하는 Adaptive Tuning 전략을 통해 강력한 임의 프레임 제어 기능을 구현합니다. (ii) 시각적 충실도와 영화적 표현력을 향상시키기 위해 고품질 데이터셋을 구축하고 Visual Expression SFT 단계를 도입합니다. 주체 운동의 합리성과 전환의 매끄러움 같은 핵심 문제를 해결하기 위해 특화된 DPO 기법을 적용하여 생성 콘텐츠의 성공률과 사용성을 크게 개선합니다. (iii) 장면 연장 생성을 용이하게 하기 위해 메모리 효율적인 방식으로 작동하는 Segment-wise Auto-Regressive 추론 전략을 설계합니다. 폭넓은 실험을 통해 본 접근법이 계산 효율성을 유지하면서도 시각적으로 인상적이고 완벽하게 일관된 원샷 효과를 달성함을 입증하며, 사용자가 단편적인 시각 자료를 생생하고 통합된 원샷 영화 경험으로 변환할 수 있도록 지원합니다.
English
The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.
PDF221December 26, 2025