ChatPaper.aiChatPaper

PickStyle: Transferencia de Estilo Video-a-Video con Adaptadores de Contexto-Estilo

PickStyle: Video-to-Video Style Transfer with Context-Style Adapters

October 8, 2025
Autores: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI

Resumen

Abordamos la tarea de transferencia de estilo en videos con modelos de difusión, donde el objetivo es preservar el contexto de un video de entrada mientras se renderiza en un estilo objetivo especificado por un texto descriptivo. Un desafío importante es la falta de datos de video emparejados para supervisión. Proponemos PickStyle, un marco de transferencia de estilo de video a video que mejora modelos de difusión de video preentrenados con adaptadores de estilo y se beneficia de datos de imágenes estáticas emparejadas con correspondencias de estilo fuente para el entrenamiento. PickStyle inserta adaptadores de bajo rango en las capas de autoatención de los módulos de condicionamiento, permitiendo una especialización eficiente para la transferencia de estilo de movimiento mientras se mantiene una alineación sólida entre el contenido del video y el estilo. Para cerrar la brecha entre la supervisión de imágenes estáticas y el video dinámico, construimos clips de entrenamiento sintéticos a partir de imágenes emparejadas aplicando aumentaciones compartidas que simulan el movimiento de la cámara, asegurando que se preserven los priores temporales. Además, introducimos la Guía Libre de Clasificador de Contexto-Estilo (CS-CFG, por sus siglas en inglés), una factorización novedosa de la guía libre de clasificador en direcciones independientes de texto (estilo) y video (contexto). CS-CFG asegura que el contexto se preserve en el video generado mientras el estilo se transfiere de manera efectiva. Los experimentos en diversos benchmarks muestran que nuestro enfoque logra traducciones de video temporalmente coherentes, fieles al estilo y que preservan el contenido, superando cualitativa y cuantitativamente a las líneas base existentes.
English
We address the task of video style transfer with diffusion models, where the goal is to preserve the context of an input video while rendering it in a target style specified by a text prompt. A major challenge is the lack of paired video data for supervision. We propose PickStyle, a video-to-video style transfer framework that augments pretrained video diffusion backbones with style adapters and benefits from paired still image data with source-style correspondences for training. PickStyle inserts low-rank adapters into the self-attention layers of conditioning modules, enabling efficient specialization for motion-style transfer while maintaining strong alignment between video content and style. To bridge the gap between static image supervision and dynamic video, we construct synthetic training clips from paired images by applying shared augmentations that simulate camera motion, ensuring temporal priors are preserved. In addition, we introduce Context-Style Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free guidance into independent text (style) and video (context) directions. CS-CFG ensures that context is preserved in generated video while the style is effectively transferred. Experiments across benchmarks show that our approach achieves temporally coherent, style-faithful, and content-preserving video translations, outperforming existing baselines both qualitatively and quantitatively.
PDF162October 10, 2025