DreaMontage: Geração de Vídeo em Um Único Passo Guiada por Quadros Arbitrários
DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation
December 24, 2025
Autores: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu
cs.AI
Resumo
A técnica "one-shot" representa uma estética distinta e sofisticada na realização cinematográfica. No entanto, a sua realização prática é frequentemente dificultada por custos proibitivos e complexas restrições do mundo real. Embora os modelos emergentes de geração de vídeo ofereçam uma alternativa virtual, as abordagens existentes normalmente dependem de uma concatenação ingénua de clipes, que frequentemente falha em manter a suavidade visual e a coerência temporal. Neste artigo, introduzimos o DreaMontage, um framework abrangente concebido para geração guiada por frames arbitrários, capaz de sintetizar vídeos "one-shot" contínuos, expressivos e de longa duração a partir de diversas entradas fornecidas pelo utilizador. Para alcançar este objetivo, abordamos o desafio através de três dimensões principais. (i) Integramos um mecanismo de condicionamento intermédio de baixo custo computacional na arquitetura DiT. Ao empregar uma estratégia de Sintonização Adaptativa que aproveita eficazmente os dados de treino base, desbloqueamos capacidades robustas de controlo por frames arbitrários. (ii) Para melhorar a fidelidade visual e a expressividade cinematográfica, reunimos um conjunto de dados de alta qualidade e implementámos uma fase de SFT de Expressão Visual. Ao abordar questões críticas como a racionalidade do movimento do sujeito e a suavidade das transições, aplicámos um esquema DPO Personalizado, que melhora significativamente a taxa de sucesso e a usabilidade do conteúdo gerado. (iii) Para facilitar a produção de sequências estendidas, concebemos uma estratégia de inferência Autorregressiva por Segmentos que opera de forma eficiente em termos de memória. Experiências extensivas demonstram que a nossa abordagem alcança efeitos "one-shot" visualmente impressionantes e perfeitamente coerentes, mantendo a eficiência computacional, capacitando os utilizadores a transformar materiais visuais fragmentados em experiências cinematográficas "one-shot" vívidas e coesas.
English
The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.