ChatPaper.aiChatPaper

PickStyle : Transfert de style vidéo-à-vidéo avec des adaptateurs contexte-style

PickStyle: Video-to-Video Style Transfer with Context-Style Adapters

October 8, 2025
papers.authors: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI

papers.abstract

Nous abordons la tâche de transfert de style vidéo avec des modèles de diffusion, où l'objectif est de préserver le contexte d'une vidéo d'entrée tout en la rendant dans un style cible spécifié par une invite textuelle. Un défi majeur est l'absence de données vidéo appariées pour la supervision. Nous proposons PickStyle, un cadre de transfert de style vidéo-à-vidéo qui enrichit des modèles de diffusion vidéo pré-entraînés avec des adaptateurs de style et tire parti de données d'images fixes appariées avec des correspondances source-style pour l'entraînement. PickStyle insère des adaptateurs de bas rang dans les couches d'auto-attention des modules de conditionnement, permettant une spécialisation efficace pour le transfert de style-mouvement tout en maintenant un alignement fort entre le contenu vidéo et le style. Pour combler l'écart entre la supervision d'images statiques et la vidéo dynamique, nous construisons des clips d'entraînement synthétiques à partir d'images appariées en appliquant des augmentations partagées qui simulent le mouvement de la caméra, assurant que les priorités temporelles sont préservées. De plus, nous introduisons le Guidance Sans Classificateur Contexte-Style (CS-CFG), une nouvelle factorisation du guidage sans classificateur en directions indépendantes de texte (style) et vidéo (contexte). CS-CFG garantit que le contexte est préservé dans la vidéo générée tout en transférant efficacement le style. Les expériences sur des benchmarks montrent que notre approche réalise des traductions vidéo temporellement cohérentes, fidèles au style et préservant le contenu, surpassant les baselines existantes à la fois qualitativement et quantitativement.
English
We address the task of video style transfer with diffusion models, where the goal is to preserve the context of an input video while rendering it in a target style specified by a text prompt. A major challenge is the lack of paired video data for supervision. We propose PickStyle, a video-to-video style transfer framework that augments pretrained video diffusion backbones with style adapters and benefits from paired still image data with source-style correspondences for training. PickStyle inserts low-rank adapters into the self-attention layers of conditioning modules, enabling efficient specialization for motion-style transfer while maintaining strong alignment between video content and style. To bridge the gap between static image supervision and dynamic video, we construct synthetic training clips from paired images by applying shared augmentations that simulate camera motion, ensuring temporal priors are preserved. In addition, we introduce Context-Style Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free guidance into independent text (style) and video (context) directions. CS-CFG ensures that context is preserved in generated video while the style is effectively transferred. Experiments across benchmarks show that our approach achieves temporally coherent, style-faithful, and content-preserving video translations, outperforming existing baselines both qualitatively and quantitatively.
PDF162October 10, 2025