PickStyle: Trasferimento di stile da video a video con adattatori contesto-stile
PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
October 8, 2025
Autori: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI
Abstract
Affrontiamo il compito del trasferimento di stile video con modelli di diffusione, dove l'obiettivo è preservare il contesto di un video di input mentre lo si rappresenta in uno stile target specificato da un prompt testuale. Una delle principali sfide è la mancanza di dati video accoppiati per la supervisione. Proponiamo PickStyle, un framework di trasferimento di stile da video a video che potenzia backbone di diffusione video pre-addestrati con adattatori di stile e trae vantaggio da dati di immagini fisse accoppiate con corrispondenze stile-sorgente per l'addestramento. PickStyle inserisce adattatori a basso rango nei livelli di self-attention dei moduli di condizionamento, consentendo una specializzazione efficiente per il trasferimento di stile-movimento mantenendo un forte allineamento tra contenuto video e stile. Per colmare il divario tra la supervisione su immagini statiche e video dinamici, costruiamo clip di addestramento sintetiche da immagini accoppiate applicando aumentazioni condivise che simulano il movimento della telecamera, garantendo che i priori temporali siano preservati. Inoltre, introduciamo la Classifier-Free Guidance Contesto-Stile (CS-CFG), una nuova fattorizzazione della guida senza classificatore in direzioni indipendenti di testo (stile) e video (contesto). CS-CFG assicura che il contesto sia preservato nel video generato mentre lo stile viene trasferito in modo efficace. Esperimenti su benchmark dimostrano che il nostro approccio raggiunge traduzioni video temporalmente coerenti, fedeli allo stile e preservanti il contenuto, superando le baseline esistenti sia qualitativamente che quantitativamente.
English
We address the task of video style transfer with diffusion models, where the
goal is to preserve the context of an input video while rendering it in a
target style specified by a text prompt. A major challenge is the lack of
paired video data for supervision. We propose PickStyle, a video-to-video style
transfer framework that augments pretrained video diffusion backbones with
style adapters and benefits from paired still image data with source-style
correspondences for training. PickStyle inserts low-rank adapters into the
self-attention layers of conditioning modules, enabling efficient
specialization for motion-style transfer while maintaining strong alignment
between video content and style. To bridge the gap between static image
supervision and dynamic video, we construct synthetic training clips from
paired images by applying shared augmentations that simulate camera motion,
ensuring temporal priors are preserved. In addition, we introduce Context-Style
Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free
guidance into independent text (style) and video (context) directions. CS-CFG
ensures that context is preserved in generated video while the style is
effectively transferred. Experiments across benchmarks show that our approach
achieves temporally coherent, style-faithful, and content-preserving video
translations, outperforming existing baselines both qualitatively and
quantitatively.