ChatPaper.aiChatPaper

StyleMaster : Stylisez votre vidéo avec génération artistique et traduction

StyleMaster: Stylize Your Video with Artistic Generation and Translation

December 10, 2024
Auteurs: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI

Résumé

Le contrôle de style a été populaire dans les modèles de génération vidéo. Les méthodes existantes génèrent souvent des vidéos loin du style donné, provoquent des fuites de contenu et ont du mal à transférer une vidéo vers le style désiré. Notre première observation est que l'étape d'extraction du style est importante, tandis que les méthodes existantes mettent l'accent sur le style global mais ignorent les textures locales. Afin d'intégrer des caractéristiques de texture tout en évitant les fuites de contenu, nous filtrons les patchs liés au contenu tout en conservant ceux liés au style en fonction de la similarité des patchs; pour l'extraction du style global, nous générons un ensemble de données de style apparié grâce à l'illusion du modèle pour faciliter l'apprentissage contrastif, ce qui améliore considérablement la cohérence absolue du style. De plus, pour combler l'écart entre l'image et la vidéo, nous entraînons un adaptateur de mouvement léger sur des vidéos fixes, ce qui renforce implicitement l'étendue de la stylisation et permet à notre modèle entraîné sur des images d'être appliqué de manière transparente aux vidéos. Grâce à ces efforts, notre approche, StyleMaster, non seulement réalise une amélioration significative à la fois en termes de ressemblance de style et de cohérence temporelle, mais peut également se généraliser facilement au transfert de style vidéo avec un ControlNet en tuile grise. Des expériences approfondies et des visualisations démontrent que StyleMaster surpasse significativement ses concurrents, générant efficacement des vidéos stylisées de haute qualité qui s'alignent sur le contenu textuel et ressemblent étroitement au style des images de référence. Notre page de projet se trouve à l'adresse https://zixuan-ye.github.io/stylemaster
English
Style control has been popular in video generation models. Existing methods often generate videos far from the given style, cause content leakage, and struggle to transfer one video to the desired style. Our first observation is that the style extraction stage matters, whereas existing methods emphasize global style but ignore local textures. In order to bring texture features while preventing content leakage, we filter content-related patches while retaining style ones based on prompt-patch similarity; for global style extraction, we generate a paired style dataset through model illusion to facilitate contrastive learning, which greatly enhances the absolute style consistency. Moreover, to fill in the image-to-video gap, we train a lightweight motion adapter on still videos, which implicitly enhances stylization extent, and enables our image-trained model to be seamlessly applied to videos. Benefited from these efforts, our approach, StyleMaster, not only achieves significant improvement in both style resemblance and temporal coherence, but also can easily generalize to video style transfer with a gray tile ControlNet. Extensive experiments and visualizations demonstrate that StyleMaster significantly outperforms competitors, effectively generating high-quality stylized videos that align with textual content and closely resemble the style of reference images. Our project page is at https://zixuan-ye.github.io/stylemaster

Summary

AI-Generated Summary

PDF193December 12, 2024