PickStyle: Transferencia de Estilo Video-a-Video con Adaptadores de Contexto-Estilo
PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
October 8, 2025
Autores: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI
Resumen
Abordamos la tarea de transferencia de estilo en videos con modelos de difusión, donde el objetivo es preservar el contexto de un video de entrada mientras se renderiza en un estilo objetivo especificado por un texto descriptivo. Un desafío importante es la falta de datos de video emparejados para supervisión. Proponemos PickStyle, un marco de transferencia de estilo de video a video que mejora modelos de difusión de video preentrenados con adaptadores de estilo y se beneficia de datos de imágenes estáticas emparejadas con correspondencias de estilo fuente para el entrenamiento. PickStyle inserta adaptadores de bajo rango en las capas de autoatención de los módulos de condicionamiento, permitiendo una especialización eficiente para la transferencia de estilo de movimiento mientras se mantiene una alineación sólida entre el contenido del video y el estilo. Para cerrar la brecha entre la supervisión de imágenes estáticas y el video dinámico, construimos clips de entrenamiento sintéticos a partir de imágenes emparejadas aplicando aumentaciones compartidas que simulan el movimiento de la cámara, asegurando que se preserven los priores temporales. Además, introducimos la Guía Libre de Clasificador de Contexto-Estilo (CS-CFG, por sus siglas en inglés), una factorización novedosa de la guía libre de clasificador en direcciones independientes de texto (estilo) y video (contexto). CS-CFG asegura que el contexto se preserve en el video generado mientras el estilo se transfiere de manera efectiva. Los experimentos en diversos benchmarks muestran que nuestro enfoque logra traducciones de video temporalmente coherentes, fieles al estilo y que preservan el contenido, superando cualitativa y cuantitativamente a las líneas base existentes.
English
We address the task of video style transfer with diffusion models, where the
goal is to preserve the context of an input video while rendering it in a
target style specified by a text prompt. A major challenge is the lack of
paired video data for supervision. We propose PickStyle, a video-to-video style
transfer framework that augments pretrained video diffusion backbones with
style adapters and benefits from paired still image data with source-style
correspondences for training. PickStyle inserts low-rank adapters into the
self-attention layers of conditioning modules, enabling efficient
specialization for motion-style transfer while maintaining strong alignment
between video content and style. To bridge the gap between static image
supervision and dynamic video, we construct synthetic training clips from
paired images by applying shared augmentations that simulate camera motion,
ensuring temporal priors are preserved. In addition, we introduce Context-Style
Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free
guidance into independent text (style) and video (context) directions. CS-CFG
ensures that context is preserved in generated video while the style is
effectively transferred. Experiments across benchmarks show that our approach
achieves temporally coherent, style-faithful, and content-preserving video
translations, outperforming existing baselines both qualitatively and
quantitatively.