ChatPaper.aiChatPaper

StyleMaster: Estiliza tu vídeo con Generación y Traducción Artística

StyleMaster: Stylize Your Video with Artistic Generation and Translation

December 10, 2024
Autores: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI

Resumen

El control de estilo ha sido popular en modelos de generación de video. Los métodos existentes a menudo generan videos lejos del estilo dado, causan fugas de contenido y luchan por transferir un video a un estilo deseado. Nuestra primera observación es que la etapa de extracción de estilo es importante, mientras que los métodos existentes enfatizan el estilo global pero ignoran las texturas locales. Para incorporar características de textura y evitar fugas de contenido, filtramos parches relacionados con el contenido mientras mantenemos los de estilo basados en la similitud de parches; para la extracción de estilo global, generamos un conjunto de datos de estilo emparejado a través de la ilusión del modelo para facilitar el aprendizaje contrastivo, lo que mejora significativamente la consistencia absoluta del estilo. Además, para cerrar la brecha entre imagen y video, entrenamos un adaptador de movimiento ligero en videos estáticos, lo que mejora implícitamente el alcance de la estilización y permite que nuestro modelo entrenado en imágenes se aplique sin problemas a videos. Gracias a estos esfuerzos, nuestro enfoque, StyleMaster, no solo logra una mejora significativa tanto en la similitud de estilo como en la coherencia temporal, sino que también puede generalizarse fácilmente a la transferencia de estilo de video con un ControlNet en escala de grises. Experimentos extensos y visualizaciones demuestran que StyleMaster supera significativamente a sus competidores, generando efectivamente videos estilizados de alta calidad que se alinean con el contenido textual y se asemejan estrechamente al estilo de las imágenes de referencia. Nuestra página del proyecto se encuentra en https://zixuan-ye.github.io/stylemaster.
English
Style control has been popular in video generation models. Existing methods often generate videos far from the given style, cause content leakage, and struggle to transfer one video to the desired style. Our first observation is that the style extraction stage matters, whereas existing methods emphasize global style but ignore local textures. In order to bring texture features while preventing content leakage, we filter content-related patches while retaining style ones based on prompt-patch similarity; for global style extraction, we generate a paired style dataset through model illusion to facilitate contrastive learning, which greatly enhances the absolute style consistency. Moreover, to fill in the image-to-video gap, we train a lightweight motion adapter on still videos, which implicitly enhances stylization extent, and enables our image-trained model to be seamlessly applied to videos. Benefited from these efforts, our approach, StyleMaster, not only achieves significant improvement in both style resemblance and temporal coherence, but also can easily generalize to video style transfer with a gray tile ControlNet. Extensive experiments and visualizations demonstrate that StyleMaster significantly outperforms competitors, effectively generating high-quality stylized videos that align with textual content and closely resemble the style of reference images. Our project page is at https://zixuan-ye.github.io/stylemaster

Summary

AI-Generated Summary

PDF193December 12, 2024