StyleMaster: Estilize seu Vídeo com Geração e Tradução Artísticas

Resumo

O controle de estilo tem sido popular em modelos de geração de vídeos. Métodos existentes frequentemente geram vídeos longe do estilo fornecido, causam vazamento de conteúdo e têm dificuldade em transferir um vídeo para o estilo desejado. Nossa primeira observação é que a etapa de extração de estilo é importante, enquanto os métodos existentes enfatizam o estilo global, mas ignoram texturas locais. Para trazer características de textura e evitar vazamento de conteúdo, filtramos patches relacionados ao conteúdo enquanto mantemos os de estilo com base na similaridade de patches de referência; para extração de estilo global, geramos um conjunto de dados de estilo em pares por meio de ilusão de modelo para facilitar a aprendizagem constrastiva, o que melhora significativamente a consistência absoluta do estilo. Além disso, para preencher a lacuna entre imagem e vídeo, treinamos um adaptador de movimento leve em vídeos estáticos, que aprimora implicitamente a extensão da estilização e permite que nosso modelo treinado em imagens seja aplicado perfeitamente a vídeos. Beneficiando-se desses esforços, nossa abordagem, StyleMaster, não apenas alcança melhorias significativas tanto na semelhança de estilo quanto na coerência temporal, mas também pode ser facilmente generalizada para a transferência de estilo de vídeo com um ControlNet em tons de cinza. Experimentos extensivos e visualizações demonstram que o StyleMaster supera significativamente os concorrentes, gerando efetivamente vídeos estilizados de alta qualidade que se alinham com o conteúdo textual e se assemelham de perto ao estilo das imagens de referência. Nossa página do projeto está em https://zixuan-ye.github.io/stylemaster.

English

Style control has been popular in video generation models. Existing methods often generate videos far from the given style, cause content leakage, and struggle to transfer one video to the desired style. Our first observation is that the style extraction stage matters, whereas existing methods emphasize global style but ignore local textures. In order to bring texture features while preventing content leakage, we filter content-related patches while retaining style ones based on prompt-patch similarity; for global style extraction, we generate a paired style dataset through model illusion to facilitate contrastive learning, which greatly enhances the absolute style consistency. Moreover, to fill in the image-to-video gap, we train a lightweight motion adapter on still videos, which implicitly enhances stylization extent, and enables our image-trained model to be seamlessly applied to videos. Benefited from these efforts, our approach, StyleMaster, not only achieves significant improvement in both style resemblance and temporal coherence, but also can easily generalize to video style transfer with a gray tile ControlNet. Extensive experiments and visualizations demonstrate that StyleMaster significantly outperforms competitors, effectively generating high-quality stylized videos that align with textual content and closely resemble the style of reference images. Our project page is at https://zixuan-ye.github.io/stylemaster

StyleMaster: Estilize seu Vídeo com Geração e Tradução Artísticas

StyleMaster: Stylize Your Video with Artistic Generation and Translation

Resumo

Support