ChatPaper.aiChatPaper

StyleMaster: Verleihen Sie Ihrem Video mit künstlerischer Generierung und Übersetzung Stil.

StyleMaster: Stylize Your Video with Artistic Generation and Translation

December 10, 2024
Autoren: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI

Zusammenfassung

Stilkontrolle war bei der Generierung von Videos sehr beliebt. Bestehende Methoden generieren oft Videos, die weit vom gegebenen Stil entfernt sind, verursachen Inhaltslecks und haben Schwierigkeiten, ein Video in den gewünschten Stil zu übertragen. Unsere erste Beobachtung ist, dass die Stil-Extraktionsphase wichtig ist, während bestehende Methoden den globalen Stil betonen, aber lokale Texturen ignorieren. Um Texturmerkmale einzubringen und gleichzeitig Inhaltslecks zu verhindern, filtern wir inhaltsbezogene Patches heraus und behalten Stil-Patches basierend auf der Ähnlichkeit von Patches bei; für die Extraktion des globalen Stils generieren wir einen gepaarten Stil-Datensatz durch Modellillusion, um das kontrastive Lernen zu erleichtern, was die absolute Stilkonsistenz erheblich verbessert. Darüber hinaus trainieren wir, um die Lücke zwischen Bild und Video zu schließen, einen leichten Bewegungsadapter auf Standbildern, der implizit den Stilisierungsgrad verbessert und es unserem auf Bildern trainierten Modell ermöglicht, nahtlos auf Videos angewendet zu werden. Dank dieser Bemühungen erzielt unser Ansatz, StyleMaster, nicht nur eine signifikante Verbesserung sowohl in der Stilähnlichkeit als auch in der zeitlichen Kohärenz, sondern kann auch leicht auf die Video-Stilübertragung mit einem grauen ControlNet angewendet werden. Umfangreiche Experimente und Visualisierungen zeigen, dass StyleMaster die Konkurrenz signifikant übertrifft, indem hochwertige stilisierte Videos effektiv generiert werden, die mit dem Textinhalt übereinstimmen und dem Stil der Referenzbilder nahekommen. Unsere Projektseite ist unter https://zixuan-ye.github.io/stylemaster verfügbar.
English
Style control has been popular in video generation models. Existing methods often generate videos far from the given style, cause content leakage, and struggle to transfer one video to the desired style. Our first observation is that the style extraction stage matters, whereas existing methods emphasize global style but ignore local textures. In order to bring texture features while preventing content leakage, we filter content-related patches while retaining style ones based on prompt-patch similarity; for global style extraction, we generate a paired style dataset through model illusion to facilitate contrastive learning, which greatly enhances the absolute style consistency. Moreover, to fill in the image-to-video gap, we train a lightweight motion adapter on still videos, which implicitly enhances stylization extent, and enables our image-trained model to be seamlessly applied to videos. Benefited from these efforts, our approach, StyleMaster, not only achieves significant improvement in both style resemblance and temporal coherence, but also can easily generalize to video style transfer with a gray tile ControlNet. Extensive experiments and visualizations demonstrate that StyleMaster significantly outperforms competitors, effectively generating high-quality stylized videos that align with textual content and closely resemble the style of reference images. Our project page is at https://zixuan-ye.github.io/stylemaster

Summary

AI-Generated Summary

PDF193December 12, 2024