StyleMaster: Geef je video vorm met artistieke generatie en vertaling.
StyleMaster: Stylize Your Video with Artistic Generation and Translation
December 10, 2024
Auteurs: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI
Samenvatting
Stijlbeheer is populair geweest in videogeneratiemodellen. Bestaande methoden genereren vaak video's die ver van de gegeven stijl liggen, wat inhoudslekken veroorzaakt en moeite hebben om een video over te zetten naar de gewenste stijl. Onze eerste observatie is dat het stadium van stijlextractie belangrijk is, terwijl bestaande methoden de nadruk leggen op de globale stijl maar lokale texturen negeren. Om textuurkenmerken toe te voegen en tegelijkertijd inhoudslekken te voorkomen, filteren we inhoudsgerelateerde patches terwijl we stijlgerelateerde behouden op basis van prompt-patch gelijkenis; voor de extractie van de globale stijl genereren we een gepaarde stijldataset via modelillusie om contrastief leren te vergemakkelijken, wat de absolute stijlconsistentie aanzienlijk verbetert. Bovendien, om de kloof tussen afbeelding en video te overbruggen, trainen we een lichtgewicht bewegingsadapter op stilstaande video's, wat impliciet de mate van stileren verbetert en ons op afbeeldingen getrainde model in staat stelt naadloos toegepast te worden op video's. Dankzij deze inspanningen behaalt onze aanpak, StyleMaster, niet alleen aanzienlijke verbeteringen in zowel stijlgelijkheid als temporele coherentie, maar kan ook gemakkelijk generaliseren naar video-stijloverdracht met een grijze tegel ControlNet. Uitgebreide experimenten en visualisaties tonen aan dat StyleMaster aanzienlijk beter presteert dan concurrenten, door effectief hoogwaardige gestileerde video's te genereren die overeenkomen met tekstuele inhoud en nauw aansluiten bij de stijl van referentieafbeeldingen. Onze projectpagina is te vinden op https://zixuan-ye.github.io/stylemaster.
English
Style control has been popular in video generation models. Existing methods
often generate videos far from the given style, cause content leakage, and
struggle to transfer one video to the desired style. Our first observation is
that the style extraction stage matters, whereas existing methods emphasize
global style but ignore local textures. In order to bring texture features
while preventing content leakage, we filter content-related patches while
retaining style ones based on prompt-patch similarity; for global style
extraction, we generate a paired style dataset through model illusion to
facilitate contrastive learning, which greatly enhances the absolute style
consistency. Moreover, to fill in the image-to-video gap, we train a
lightweight motion adapter on still videos, which implicitly enhances
stylization extent, and enables our image-trained model to be seamlessly
applied to videos. Benefited from these efforts, our approach, StyleMaster, not
only achieves significant improvement in both style resemblance and temporal
coherence, but also can easily generalize to video style transfer with a gray
tile ControlNet. Extensive experiments and visualizations demonstrate that
StyleMaster significantly outperforms competitors, effectively generating
high-quality stylized videos that align with textual content and closely
resemble the style of reference images. Our project page is at
https://zixuan-ye.github.io/stylemaster