ChatPaper.aiChatPaper

DreaMontage: Generación de Video en una Toma Guiada por Marcos Arbitrarios

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

December 24, 2025
Autores: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu
cs.AI

Resumen

La técnica del "plano secuencia" representa una estética distintiva y sofisticada en la realización cinematográfica. Sin embargo, su realización práctica a menudo se ve obstaculizada por costos prohibitivos y complejas limitaciones del mundo real. Aunque los modelos emergentes de generación de video ofrecen una alternativa virtual, los enfoques existentes generalmente dependen de una concatenación ingenua de clips, que frecuentemente falla en mantener la suavidad visual y la coherencia temporal. En este artículo, presentamos DreaMontage, un marco integral diseñado para la generación guiada por fotogramas arbitrarios, capaz de sintetizar videos de plano secuencia perfectos, expresivos y de larga duración a partir de diversas entradas proporcionadas por el usuario. Para lograrlo, abordamos el desafío a través de tres dimensiones principales. (i) Integramos un mecanismo de condicionamiento intermedio ligero en la arquitectura DiT. Al emplear una estrategia de Sintonización Adaptativa que aprovecha eficazmente los datos de entrenamiento base, desbloqueamos capacidades robustas de control de fotogramas arbitrarios. (ii) Para mejorar la fidelidad visual y la expresividad cinematográfica, seleccionamos un conjunto de datos de alta calidad e implementamos una etapa de Sintonización Fina Supervisada (SFT) de Expresión Visual. Al abordar problemas críticos como la racionalidad del movimiento del sujeto y la suavidad de las transiciones, aplicamos un esquema de Optimización de Preferencias Directas (DPO) Personalizado, que mejora significativamente la tasa de éxito y la usabilidad del contenido generado. (iii) Para facilitar la producción de secuencias extendidas, diseñamos una estrategia de inferencia Autorregresiva por Segmentos (SAR) que opera de manera eficiente en memoria. Experimentos exhaustivos demuestran que nuestro enfoque logra efectos de plano secuencia visualmente impactantes y perfectamente coherentes, manteniendo al mismo tiempo la eficiencia computacional, capacitando a los usuarios para transformar materiales visuales fragmentados en experiencias cinematográficas de plano secuencia vívidas y cohesivas.
English
The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.
PDF221December 26, 2025