StyleMaster: Estiliza tu vídeo con Generación y Traducción Artística
StyleMaster: Stylize Your Video with Artistic Generation and Translation
December 10, 2024
Autores: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI
Resumen
El control de estilo ha sido popular en modelos de generación de video. Los métodos existentes a menudo generan videos lejos del estilo dado, causan fugas de contenido y luchan por transferir un video a un estilo deseado. Nuestra primera observación es que la etapa de extracción de estilo es importante, mientras que los métodos existentes enfatizan el estilo global pero ignoran las texturas locales. Para incorporar características de textura y evitar fugas de contenido, filtramos parches relacionados con el contenido mientras mantenemos los de estilo basados en la similitud de parches; para la extracción de estilo global, generamos un conjunto de datos de estilo emparejado a través de la ilusión del modelo para facilitar el aprendizaje contrastivo, lo que mejora significativamente la consistencia absoluta del estilo. Además, para cerrar la brecha entre imagen y video, entrenamos un adaptador de movimiento ligero en videos estáticos, lo que mejora implícitamente el alcance de la estilización y permite que nuestro modelo entrenado en imágenes se aplique sin problemas a videos. Gracias a estos esfuerzos, nuestro enfoque, StyleMaster, no solo logra una mejora significativa tanto en la similitud de estilo como en la coherencia temporal, sino que también puede generalizarse fácilmente a la transferencia de estilo de video con un ControlNet en escala de grises. Experimentos extensos y visualizaciones demuestran que StyleMaster supera significativamente a sus competidores, generando efectivamente videos estilizados de alta calidad que se alinean con el contenido textual y se asemejan estrechamente al estilo de las imágenes de referencia. Nuestra página del proyecto se encuentra en https://zixuan-ye.github.io/stylemaster.
English
Style control has been popular in video generation models. Existing methods
often generate videos far from the given style, cause content leakage, and
struggle to transfer one video to the desired style. Our first observation is
that the style extraction stage matters, whereas existing methods emphasize
global style but ignore local textures. In order to bring texture features
while preventing content leakage, we filter content-related patches while
retaining style ones based on prompt-patch similarity; for global style
extraction, we generate a paired style dataset through model illusion to
facilitate contrastive learning, which greatly enhances the absolute style
consistency. Moreover, to fill in the image-to-video gap, we train a
lightweight motion adapter on still videos, which implicitly enhances
stylization extent, and enables our image-trained model to be seamlessly
applied to videos. Benefited from these efforts, our approach, StyleMaster, not
only achieves significant improvement in both style resemblance and temporal
coherence, but also can easily generalize to video style transfer with a gray
tile ControlNet. Extensive experiments and visualizations demonstrate that
StyleMaster significantly outperforms competitors, effectively generating
high-quality stylized videos that align with textual content and closely
resemble the style of reference images. Our project page is at
https://zixuan-ye.github.io/stylemasterSummary
AI-Generated Summary