StyleMaster: Estilize seu Vídeo com Geração e Tradução Artísticas
StyleMaster: Stylize Your Video with Artistic Generation and Translation
December 10, 2024
Autores: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI
Resumo
O controle de estilo tem sido popular em modelos de geração de vídeos. Métodos existentes frequentemente geram vídeos longe do estilo fornecido, causam vazamento de conteúdo e têm dificuldade em transferir um vídeo para o estilo desejado. Nossa primeira observação é que a etapa de extração de estilo é importante, enquanto os métodos existentes enfatizam o estilo global, mas ignoram texturas locais. Para trazer características de textura e evitar vazamento de conteúdo, filtramos patches relacionados ao conteúdo enquanto mantemos os de estilo com base na similaridade de patches de referência; para extração de estilo global, geramos um conjunto de dados de estilo em pares por meio de ilusão de modelo para facilitar a aprendizagem constrastiva, o que melhora significativamente a consistência absoluta do estilo. Além disso, para preencher a lacuna entre imagem e vídeo, treinamos um adaptador de movimento leve em vídeos estáticos, que aprimora implicitamente a extensão da estilização e permite que nosso modelo treinado em imagens seja aplicado perfeitamente a vídeos. Beneficiando-se desses esforços, nossa abordagem, StyleMaster, não apenas alcança melhorias significativas tanto na semelhança de estilo quanto na coerência temporal, mas também pode ser facilmente generalizada para a transferência de estilo de vídeo com um ControlNet em tons de cinza. Experimentos extensivos e visualizações demonstram que o StyleMaster supera significativamente os concorrentes, gerando efetivamente vídeos estilizados de alta qualidade que se alinham com o conteúdo textual e se assemelham de perto ao estilo das imagens de referência. Nossa página do projeto está em https://zixuan-ye.github.io/stylemaster.
English
Style control has been popular in video generation models. Existing methods
often generate videos far from the given style, cause content leakage, and
struggle to transfer one video to the desired style. Our first observation is
that the style extraction stage matters, whereas existing methods emphasize
global style but ignore local textures. In order to bring texture features
while preventing content leakage, we filter content-related patches while
retaining style ones based on prompt-patch similarity; for global style
extraction, we generate a paired style dataset through model illusion to
facilitate contrastive learning, which greatly enhances the absolute style
consistency. Moreover, to fill in the image-to-video gap, we train a
lightweight motion adapter on still videos, which implicitly enhances
stylization extent, and enables our image-trained model to be seamlessly
applied to videos. Benefited from these efforts, our approach, StyleMaster, not
only achieves significant improvement in both style resemblance and temporal
coherence, but also can easily generalize to video style transfer with a gray
tile ControlNet. Extensive experiments and visualizations demonstrate that
StyleMaster significantly outperforms competitors, effectively generating
high-quality stylized videos that align with textual content and closely
resemble the style of reference images. Our project page is at
https://zixuan-ye.github.io/stylemasterSummary
AI-Generated Summary