PickStyle: Video-naar-Video Stijloverdracht met Context-Style Adapters
PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
October 8, 2025
Auteurs: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI
Samenvatting
We behandelen de taak van videostijloverdracht met diffusiemodellen, waarbij het doel is om de context van een invoervideo te behouden terwijl deze wordt weergegeven in een doelstijl die wordt gespecificeerd door een tekstprompt. Een grote uitdaging is het gebrek aan gepaarde videogegevens voor supervisie. We stellen PickStyle voor, een video-naar-video stijloverdrachtsframework dat voorgetrainde videodiffusie-backbones uitbreidt met stijladapters en profiteert van gepaarde stilstaande beeldgegevens met bron-stijlcorrespondenties voor training. PickStyle voegt low-rank adapters in in de self-attention lagen van conditioneringsmodules, waardoor efficiënte specialisatie voor beweging-stijloverdracht mogelijk wordt gemaakt terwijl een sterke afstemming tussen videocontent en stijl wordt behouden. Om de kloof tussen statische beeldsupervisie en dynamische video te overbruggen, construeren we synthetische trainingsclips uit gepaarde beelden door gedeelde augmentaties toe te passen die camerabeweging simuleren, waardoor temporele priors worden behouden. Daarnaast introduceren we Context-Style Classifier-Free Guidance (CS-CFG), een nieuwe factorisatie van classifier-free guidance in onafhankelijke tekst (stijl) en video (context) richtingen. CS-CFG zorgt ervoor dat context wordt behouden in gegenereerde video terwijl de stijl effectief wordt overgedragen. Experimenten over benchmarks tonen aan dat onze aanpak temporeel coherente, stijltrouwe en contentbehoudende videotranslaties bereikt, waarbij bestaande baseline-methoden zowel kwalitatief als kwantitatief worden overtroffen.
English
We address the task of video style transfer with diffusion models, where the
goal is to preserve the context of an input video while rendering it in a
target style specified by a text prompt. A major challenge is the lack of
paired video data for supervision. We propose PickStyle, a video-to-video style
transfer framework that augments pretrained video diffusion backbones with
style adapters and benefits from paired still image data with source-style
correspondences for training. PickStyle inserts low-rank adapters into the
self-attention layers of conditioning modules, enabling efficient
specialization for motion-style transfer while maintaining strong alignment
between video content and style. To bridge the gap between static image
supervision and dynamic video, we construct synthetic training clips from
paired images by applying shared augmentations that simulate camera motion,
ensuring temporal priors are preserved. In addition, we introduce Context-Style
Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free
guidance into independent text (style) and video (context) directions. CS-CFG
ensures that context is preserved in generated video while the style is
effectively transferred. Experiments across benchmarks show that our approach
achieves temporally coherent, style-faithful, and content-preserving video
translations, outperforming existing baselines both qualitatively and
quantitatively.