PickStyle: Video-zu-Video-Stiltransfer mit Kontext-Stil-Adaptern
PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
October 8, 2025
papers.authors: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI
papers.abstract
Wir befassen uns mit der Aufgabe des Video-Style-Transfers mithilfe von Diffusionsmodellen, bei der das Ziel darin besteht, den Kontext eines Eingabevideos zu bewahren, während es in einem durch einen Textprompt spezifizierten Zielstil dargestellt wird. Eine große Herausforderung ist der Mangel an gepaarten Videodaten für die Überwachung. Wir schlagen PickStyle vor, ein Video-zu-Video-Style-Transfer-Framework, das vortrainierte Video-Diffusions-Backbones mit Style-Adaptern erweitert und von gepaarten Standbilddaten mit Quell-Stil-Korrespondenzen für das Training profitiert. PickStyle fügt Low-Rank-Adapter in die Self-Attention-Schichten der Konditionierungsmodule ein, wodurch eine effiziente Spezialisierung für den Bewegungs-Style-Transfer ermöglicht wird, während eine starke Ausrichtung zwischen Videoinhalt und Stil erhalten bleibt. Um die Lücke zwischen statischer Bildüberwachung und dynamischem Video zu überbrücken, konstruieren wir synthetische Trainingsclips aus gepaarten Bildern, indem wir gemeinsame Augmentierungen anwenden, die Kamerabewegungen simulieren und sicherstellen, dass zeitliche Prioritäten bewahrt werden. Zusätzlich führen wir Context-Style Classifier-Free Guidance (CS-CFG) ein, eine neuartige Faktorisierung des Classifier-Free-Guidance in unabhängige Text- (Stil) und Video- (Kontext) Richtungen. CS-CFG stellt sicher, dass der Kontext im generierten Video erhalten bleibt, während der Stil effektiv übertragen wird. Experimente über Benchmarks hinweg zeigen, dass unser Ansatz zeitlich kohärente, stilgetreue und inhaltserhaltende Videoübersetzungen erreicht und bestehende Baselines sowohl qualitativ als auch quantitativ übertrifft.
English
We address the task of video style transfer with diffusion models, where the
goal is to preserve the context of an input video while rendering it in a
target style specified by a text prompt. A major challenge is the lack of
paired video data for supervision. We propose PickStyle, a video-to-video style
transfer framework that augments pretrained video diffusion backbones with
style adapters and benefits from paired still image data with source-style
correspondences for training. PickStyle inserts low-rank adapters into the
self-attention layers of conditioning modules, enabling efficient
specialization for motion-style transfer while maintaining strong alignment
between video content and style. To bridge the gap between static image
supervision and dynamic video, we construct synthetic training clips from
paired images by applying shared augmentations that simulate camera motion,
ensuring temporal priors are preserved. In addition, we introduce Context-Style
Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free
guidance into independent text (style) and video (context) directions. CS-CFG
ensures that context is preserved in generated video while the style is
effectively transferred. Experiments across benchmarks show that our approach
achieves temporally coherent, style-faithful, and content-preserving video
translations, outperforming existing baselines both qualitatively and
quantitatively.