DreaMontage: 任意のフレームガイドによるワンショット動画生成
DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation
December 24, 2025
著者: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu
cs.AI
要旨
「ワンショット」技法は、映画制作において独特かつ高度な美的表現である。しかし、その実現には莫大なコストと複雑な現実世界の制約が伴うことが多い。近年登場したビデオ生成モデルは仮想的な代替手段を提供するが、既存の手法は単純なクリップ連結に依存する場合が多く、視覚的な滑らかさや時間的整合性の維持に課題がある。本論文では、任意のフレーム誘導生成を実現する包括的フレームワーク「DreaMontage」を提案する。本手法は多様なユーザー入力から、シームレスで表現力に富み、長時間にわたるワンショット動画を合成可能である。この実現のために、我々は主に三つの次元で課題に取り組んだ。(i) DiTアーキテクチャに軽量な中間条件付け機構を統合し、基本訓練データを効果的に活用するAdaptive Tuning戦略により、強固な任意フレーム制御機能を実現した。(ii) 視覚的品質と映画的表現力を高めるため、高品質データセットを構築しVisual Expression SFT段階を導入。被写体動作の合理性や遷移の滑らかさといった重要課題に対し、Tailored DPO手法を適用することで、生成コンテンツの成功率と実用性を大幅に改善した。(iii) 長時間シーケンスの生成を可能にするため、メモリ効率の良いSegment-wise Auto-Regressive (SAR) 推論戦略を設計した。大規模な実験により、本手法が計算効率を維持しつつ、視覚的に印象的でシームレスに統合されたワンショット効果を実現できることを実証。断片的な視覚素材を、生き生きとした一貫性のあるワンショットの映画的体験へと変換するユーザー支援を可能にする。
English
The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.