DreaMontage: Generazione Video One-Shot Guidata da Frame Arbitrari

Abstract

La tecnica "one-shot" rappresenta un'estetica distintiva e sofisticata nella realizzazione cinematografica. Tuttavia, la sua realizzazione pratica è spesso ostacolata da costi proibitivi e complessi vincoli del mondo reale. Sebbene i modelli emergenti di generazione video offrano un'alternativa virtuale, gli approcci esistenti si basano tipicamente su una naïf concatenazione di clip, che spesso non riesce a mantenere fluidità visiva e coerenza temporale. In questo articolo presentiamo DreaMontage, un framework completo progettato per la generazione guidata da frame arbitrari, in grado di sintetizzare video one-shot senza soluzione di continuità, espressivi e di lunga durata a partire da input eterogenei forniti dall'utente. Per raggiungere questo obiettivo, affrontiamo la sfida attraverso tre dimensioni principali. (i) Integriamo un meccanismo di condizionamento intermedio leggero nell'architettura DiT. Impiegando una strategia di Adaptive Tuning che sfrutta efficacemente i dati di training di base, sblocchiamo solide capacità di controllo per frame arbitrari. (ii) Per migliorare la fedeltà visiva e l'espressività cinematografica, curiamo un dataset di alta qualità e implementiamo una fase di SFT per l'Espressione Visiva. Nell'affrontare problemi critici come la razionalità del movimento del soggetto e la fluidità delle transizioni, applichiamo uno schema DPO Su Misura, che migliora significativamente il tasso di successo e l'usabilità dei contenuti generati. (iii) Per facilitare la produzione di sequenze estese, progettiamo una strategia di inferenza Auto-Regressiva a Segmenti (SAR) che opera in modo efficiente dal punto di vista della memoria. Esperimenti estensivi dimostrano che il nostro approccio raggiunge effetti one-shot visivamente straordinari e perfettamente coerenti, mantenendo al contempo l'efficienza computazionale, consentendo agli utenti di trasformare materiali visivi frammentati in esperienze cinematografiche one-shot vivide e coese.

English

The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.

DreaMontage: Generazione Video One-Shot Guidata da Frame Arbitrari

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

Abstract

Support