PickStyle: Transferência de Estilo Vídeo-a-Vídeo com Adaptadores de Contexto-Estilo
PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
October 8, 2025
Autores: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI
Resumo
Abordamos a tarefa de transferência de estilo em vídeos com modelos de difusão, onde o objetivo é preservar o contexto de um vídeo de entrada enquanto o renderiza em um estilo alvo especificado por um prompt de texto. Um grande desafio é a falta de dados de vídeo pareados para supervisão. Propomos o PickStyle, um framework de transferência de estilo vídeo-a-vídeo que aprimora backbones de difusão de vídeo pré-treinados com adaptadores de estilo e se beneficia de dados de imagens estáticas pareadas com correspondências de estilo-fonte para treinamento. O PickStyle insere adaptadores de baixa classificação nas camadas de auto-atenção dos módulos de condicionamento, permitindo uma especialização eficiente para transferência de movimento-estilo enquanto mantém um forte alinhamento entre o conteúdo do vídeo e o estilo. Para preencher a lacuna entre a supervisão de imagens estáticas e vídeos dinâmicos, construímos clipes de treinamento sintéticos a partir de imagens pareadas aplicando aumentos compartilhados que simulam o movimento da câmera, garantindo que os priores temporais sejam preservados. Além disso, introduzimos o Context-Style Classifier-Free Guidance (CS-CFG), uma nova fatorização do guia livre de classificador em direções independentes de texto (estilo) e vídeo (contexto). O CS-CFG garante que o contexto seja preservado no vídeo gerado enquanto o estilo é efetivamente transferido. Experimentos em benchmarks mostram que nossa abordagem alcança traduções de vídeo temporalmente coerentes, fiéis ao estilo e que preservam o conteúdo, superando as baselines existentes tanto qualitativa quanto quantitativamente.
English
We address the task of video style transfer with diffusion models, where the
goal is to preserve the context of an input video while rendering it in a
target style specified by a text prompt. A major challenge is the lack of
paired video data for supervision. We propose PickStyle, a video-to-video style
transfer framework that augments pretrained video diffusion backbones with
style adapters and benefits from paired still image data with source-style
correspondences for training. PickStyle inserts low-rank adapters into the
self-attention layers of conditioning modules, enabling efficient
specialization for motion-style transfer while maintaining strong alignment
between video content and style. To bridge the gap between static image
supervision and dynamic video, we construct synthetic training clips from
paired images by applying shared augmentations that simulate camera motion,
ensuring temporal priors are preserved. In addition, we introduce Context-Style
Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free
guidance into independent text (style) and video (context) directions. CS-CFG
ensures that context is preserved in generated video while the style is
effectively transferred. Experiments across benchmarks show that our approach
achieves temporally coherent, style-faithful, and content-preserving video
translations, outperforming existing baselines both qualitatively and
quantitatively.