DreamStyle: Un Marco Unificado para la Estilización de Video
DreamStyle: A Unified Framework for Video Stylization
January 6, 2026
Autores: Mengtian Li, Jinshu Chen, Songtao Zhao, Wanquan Feng, Pengqi Tu, Qian He
cs.AI
Resumen
La estilización de vídeo, una importante tarea derivada de los modelos de generación de vídeo, aún no ha sido explorada exhaustivamente. Sus condiciones de estilo de entrada suelen incluir texto, imagen de estilo y primer fotograma estilizado. Cada condición tiene una ventaja característica: el texto es más flexible, la imagen de estilo proporciona una referencia visual más precisa, y el primer fotograma estilizado hace viable la estilización de vídeos largos. Sin embargo, los métodos existentes se limitan en gran medida a un único tipo de condición de estilo, lo que restringe su ámbito de aplicación. Adicionalmente, la falta de conjuntos de datos de alta calidad provoca inconsistencias de estilo y parpadeo temporal. Para abordar estas limitaciones, presentamos DreamStyle, un marco unificado para la estilización de vídeo que admite (1) estilización guiada por texto, (2) estilización guiada por imagen de estilo y (3) estilización guiada por el primer fotograma, acompañado de un pipeline de curación de datos bien diseñado para obtener datos de vídeo pareados de alta calidad. DreamStyle se construye sobre un modelo básico de Imagen-a-Vídeo (I2V) y se entrena utilizando una Adaptación de Bajo Rango (LoRA) con matrices de actualización específicas por token que reducen la confusión entre los diferentes tokens de condición. Evaluaciones tanto cualitativas como cuantitativas demuestran que DreamStyle es competente en las tres tareas de estilización de vídeo, y supera a sus competidores en consistencia de estilo y calidad de vídeo.
English
Video stylization, an important downstream task of video generation models, has not yet been thoroughly explored. Its input style conditions typically include text, style image, and stylized first frame. Each condition has a characteristic advantage: text is more flexible, style image provides a more accurate visual anchor, and stylized first frame makes long-video stylization feasible. However, existing methods are largely confined to a single type of style condition, which limits their scope of application. Additionally, their lack of high-quality datasets leads to style inconsistency and temporal flicker. To address these limitations, we introduce DreamStyle, a unified framework for video stylization, supporting (1) text-guided, (2) style-image-guided, and (3) first-frame-guided video stylization, accompanied by a well-designed data curation pipeline to acquire high-quality paired video data. DreamStyle is built on a vanilla Image-to-Video (I2V) model and trained using a Low-Rank Adaptation (LoRA) with token-specific up matrices that reduces the confusion among different condition tokens. Both qualitative and quantitative evaluations demonstrate that DreamStyle is competent in all three video stylization tasks, and outperforms the competitors in style consistency and video quality.