DreaMontage: Beliebige einzelframegeführte Einzelbild-Videogenerierung
DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation
December 24, 2025
papers.authors: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu
cs.AI
papers.abstract
Die "One-Shot"-Technik verkörpert eine eigenständige und anspruchsvolle Ästhetik in der Filmproduktion. Deren praktische Umsetzung wird jedoch häufig durch prohibitive Kosten und komplexe realweltliche Einschränkungen behindert. Obwohl neu aufkommende Video-Generierungsmodelle eine virtuelle Alternative bieten, stützen sich bestehende Ansätze typischerweise auf naive Clip-Verkettung, die häufig die visuelle Geschmeidigkeit und zeitliche Kohärenz nicht aufrechterhalten kann. In diesem Beitrag stellen wir DreaMontage vor, einen umfassenden Rahmen für die beliebig rahmengesteuerte Generierung, der in der Lage ist, nahtlose, ausdrucksstarke und langandauernde One-Shot-Videos aus diversen benutzerbereitgestellten Eingaben zu synthetisieren. Um dies zu erreichen, adressieren wir die Herausforderung in drei Hauptdimensionen. (i) Wir integrieren einen leichtgewichtigen Intermediate-Conditioning-Mechanismus in die DiT-Architektur. Durch den Einsatz einer Adaptive-Tuning-Strategie, die Basistrainingsdaten effektiv nutzt, erschließen wir robuste Fähigkeiten zur beliebigen Rahmensteuerung. (ii) Zur Steigerung der visuellen Qualität und filmischen Ausdruckskraft kuratieren wir einen hochwertigen Datensatz und implementieren eine Visual-Expression-SFT-Stufe. Bei der Behandlung kritischer Probleme wie der Rationalität der Subjektbewegung und Übergangsglätte wenden wir ein maßgeschneidertes DPO-Schema an, das die Erfolgsquote und Nutzbarkeit der generierten Inhalte signifikant verbessert. (iii) Um die Produktion längerer Sequenzen zu ermöglichen, entwerfen wir eine segmentweise autoregressive (SAR) Inferenzstrategie, die speichereffizient arbeitet. Umfangreiche Experimente belegen, dass unser Ansatz visuell eindrucksvolle und nahtlos kohärente One-Shot-Effekte erzielt und dabei Recheneffizienz wahrt, wodurch Nutzer befähigt werden, fragmentierte visuelle Materialien in lebendige, geschlossene One-Shot-Filmerlebnisse zu transformieren.
English
The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.