ChatPaper.aiChatPaper

DreaMontage : Génération de vidéos en one-shot guidée par des trames arbitraires

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

December 24, 2025
papers.authors: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu
cs.AI

papers.abstract

La technique du « plan-séquence » incarne une esthétique cinématographique distincte et sophistiquée. Cependant, sa réalisation pratique est souvent entravée par des coûts prohibitifs et des contraintes techniques complexes. Bien que les modèles émergents de génération vidéo offrent une alternative virtuelle, les approches existantes reposent généralement sur une concaténation naïve de clips, qui échoue fréquemment à préserver la fluidité visuelle et la cohérence temporelle. Dans cet article, nous présentons DreaMontage, un cadre complet conçu pour la génération guidée par des images arbitraires, capable de synthétiser des plans-séquences fluides, expressifs et de longue durée à partir de divers inputs utilisateur. Pour y parvenir, nous abordons le défi selon trois dimensions principales. (i) Nous intégrons un mécanisme léger de conditionnement intermédiaire dans l’architecture DiT. En employant une stratégie d’Adaptive Tuning qui exploite efficacement les données d’entraînement de base, nous débloquons des capacités robustes de contrôle par images arbitraires. (ii) Pour améliorer la fidélité visuelle et l’expressivité cinématographique, nous constituons un jeu de données de haute qualité et mettons en œuvre une phase de SFT d’Expression Visuelle. Pour résoudre des problèmes critiques tels que la rationalité du mouvement du sujet et la fluidité des transitions, nous appliquons un schéma DPO sur mesure, qui améliore significativement le taux de réussite et la maniabilité du contenu généré. (iii) Pour faciliter la production de séquences étendues, nous concevons une stratégie d’inférence auto-régressive segment par segment (SAR) fonctionnant de manière économe en mémoire. Des expériences approfondies démontrent que notre approche produit des effets plan-séquence visuellement saisissants et parfaitement cohérents tout en maintenant une efficacité computationnelle, permettant aux utilisateurs de transformer des matériaux visuels fragmentés en expériences cinématographiques vivantes et unifiées.
English
The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.
PDF221December 26, 2025