DreaMontage: Willekeurige Frame-Gestuurde One-Shot Videogeneratie
DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation
December 24, 2025
Auteurs: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu
cs.AI
Samenvatting
De "one-shot"-techniek vertegenwoordigt een onderscheidende en verfijnde esthetiek in filmmaken. De praktische realisatie ervan wordt echter vaak belemmerd door torenhoge kosten en complexe beperkingen in de echte wereld. Hoewel opkomende videogeneratiemodellen een virtueel alternatief bieden, zijn bestaande benaderingen doorgaans gebaseerd op naïeve clipconcatenatie, wat vaak faalt om visuele vlotheid en temporele coherentie te behouden. In dit artikel introduceren we DreaMontage, een uitgebreid raamwerk ontworpen voor willekeurige frame-gestuurde generatie, dat in staat is naadloze, expressieve en langdurige one-shot video's te synthetiseren vanuit diverse door de gebruiker verstrekte inputs. Om dit te bereiken, pakken we de uitdaging aan via drie primaire dimensies. (i) We integreren een lichtgewicht intermediate-conditioning-mechanisme in de DiT-architectuur. Door gebruik te maken van een Adaptive Tuning-strategie die effectief gebruikmaakt van basis-trainingsdata, ontsluiten we robuuste mogelijkheden voor willekeurige frame-controle. (ii) Om de visuele kwaliteit en cinematografische expressiviteit te verbeteren, stellen we een hoogwaardige dataset samen en implementeren we een Visual Expression SFT-fase. Bij het aanpakken van kritieke kwesties zoals de rationaliteit van subjectbeweging en overgangsvlotheid, passen we een Tailored DPO-schema toe, wat het slagingspercentage en de bruikbaarheid van de gegenereerde inhoud aanzienlijk verbetert. (iii) Om de productie van uitgebreide sequenties te vergemakkelijken, ontwerpen we een Segment-wise Auto-Regressive (SAR)-inferentiestrategie die op een geheugenefficiënte manier opereert. Uitgebreide experimenten tonen aan dat onze aanpak visueel opvallende en naadloos coherente one-shot effecten bereikt, terwijl de rekenkundige efficiëntie behouden blijft, waardoor gebruikers in staat worden gesteld om gefragmenteerd visueel materiaal om te zetten in levendige, samenhangende one-shot cinematografische ervaringen.
English
The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.