ChatPaper.aiChatPaper

StyleMaster: Стилизуйте свое видео с помощью художественной генерации и трансформации.

StyleMaster: Stylize Your Video with Artistic Generation and Translation

December 10, 2024
Авторы: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo
cs.AI

Аннотация

Стилевое управление стало популярным в моделях генерации видео. Существующие методы часто создают видео, значительно отличающиеся от заданного стиля, вызывают утечку контента и испытывают трудности при передаче одного видео в желаемый стиль. Наше первое наблюдение заключается в том, что важна стадия извлечения стиля, в то время как существующие методы акцентируют внимание на глобальном стиле, но игнорируют локальные текстуры. Для внесения текстурных особенностей и предотвращения утечки контента мы фильтруем связанные с контентом участки, сохраняя стильные на основе сходства между участками; для извлечения глобального стиля мы генерируем сопоставленный набор данных стилей через модельное иллюзионирование для облегчения контрастного обучения, что значительно улучшает абсолютную согласованность стиля. Более того, чтобы заполнить разрыв между изображением и видео, мы обучаем легкий адаптер движения на неподвижных видео, что неявно усиливает степень стилизации и позволяет нашей обученной на изображениях модели без проблем применяться к видео. Благодаря этим усилиям наш подход, StyleMaster, не только достигает значительного улучшения как в сходстве стиля, так и во временной согласованности, но также легко обобщается на передачу стиля видео с помощью ControlNet серого плита. Обширные эксперименты и визуализации демонстрируют, что StyleMaster значительно превосходит конкурентов, эффективно создавая высококачественные стилизованные видео, которые соответствуют текстовому контенту и тесно напоминают стиль исходных изображений. Наша страница проекта находится по адресу https://zixuan-ye.github.io/stylemaster
English
Style control has been popular in video generation models. Existing methods often generate videos far from the given style, cause content leakage, and struggle to transfer one video to the desired style. Our first observation is that the style extraction stage matters, whereas existing methods emphasize global style but ignore local textures. In order to bring texture features while preventing content leakage, we filter content-related patches while retaining style ones based on prompt-patch similarity; for global style extraction, we generate a paired style dataset through model illusion to facilitate contrastive learning, which greatly enhances the absolute style consistency. Moreover, to fill in the image-to-video gap, we train a lightweight motion adapter on still videos, which implicitly enhances stylization extent, and enables our image-trained model to be seamlessly applied to videos. Benefited from these efforts, our approach, StyleMaster, not only achieves significant improvement in both style resemblance and temporal coherence, but also can easily generalize to video style transfer with a gray tile ControlNet. Extensive experiments and visualizations demonstrate that StyleMaster significantly outperforms competitors, effectively generating high-quality stylized videos that align with textual content and closely resemble the style of reference images. Our project page is at https://zixuan-ye.github.io/stylemaster

Summary

AI-Generated Summary

PDF193December 12, 2024