ChatPaper.aiChatPaper

PickStyle: Видео-к-видео перенос стиля с использованием контекстно-стилевых адаптеров

PickStyle: Video-to-Video Style Transfer with Context-Style Adapters

October 8, 2025
Авторы: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI

Аннотация

Мы рассматриваем задачу переноса стиля в видео с использованием диффузионных моделей, где цель заключается в сохранении контекста входного видео при его визуализации в целевом стиле, заданном текстовым запросом. Основная сложность заключается в отсутствии парных видеоданных для обучения с учителем. Мы предлагаем PickStyle — фреймворк для переноса стиля из видео в видео, который расширяет предобученные диффузионные модели для видео с помощью адаптеров стиля и использует парные статичные изображения с соответствиями исходного и целевого стилей для обучения. PickStyle встраивает низкоранговые адаптеры в слои self-attention модулей кондиционирования, что позволяет эффективно специализироваться на переносе стиля с сохранением сильного соответствия между содержанием видео и стилем. Чтобы преодолеть разрыв между статичными изображениями и динамическим видео, мы создаем синтетические обучающие клипы из парных изображений, применяя общие аугментации, имитирующие движение камеры, что обеспечивает сохранение временных приоритетов. Кроме того, мы представляем Context-Style Classifier-Free Guidance (CS-CFG) — новую факторизацию метода classifier-free guidance на независимые направления текста (стиль) и видео (контекст). CS-CFG гарантирует сохранение контекста в сгенерированном видео при эффективном переносе стиля. Эксперименты на различных бенчмарках показывают, что наш подход обеспечивает временную согласованность, точность стиля и сохранение содержания в видео, превосходя существующие базовые методы как качественно, так и количественно.
English
We address the task of video style transfer with diffusion models, where the goal is to preserve the context of an input video while rendering it in a target style specified by a text prompt. A major challenge is the lack of paired video data for supervision. We propose PickStyle, a video-to-video style transfer framework that augments pretrained video diffusion backbones with style adapters and benefits from paired still image data with source-style correspondences for training. PickStyle inserts low-rank adapters into the self-attention layers of conditioning modules, enabling efficient specialization for motion-style transfer while maintaining strong alignment between video content and style. To bridge the gap between static image supervision and dynamic video, we construct synthetic training clips from paired images by applying shared augmentations that simulate camera motion, ensuring temporal priors are preserved. In addition, we introduce Context-Style Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free guidance into independent text (style) and video (context) directions. CS-CFG ensures that context is preserved in generated video while the style is effectively transferred. Experiments across benchmarks show that our approach achieves temporally coherent, style-faithful, and content-preserving video translations, outperforming existing baselines both qualitatively and quantitatively.
PDF162October 10, 2025