PickStyle: 컨텍스트-스타일 어댑터를 활용한 비디오-투-비디오 스타일 변환
PickStyle: Video-to-Video Style Transfer with Context-Style Adapters
October 8, 2025
저자: Soroush Mehraban, Vida Adeli, Jacob Rommann, Babak Taati, Kyryl Truskovskyi
cs.AI
초록
우리는 디퓨전 모델을 활용한 비디오 스타일 변환 작업을 다루며, 입력 비디오의 콘텍스트를 보존하면서 텍스트 프롬프트로 지정된 타겟 스타일로 렌더링하는 것을 목표로 합니다. 주요 과제는 감독을 위한 짝지어진 비디오 데이터의 부족입니다. 우리는 PickStyle을 제안하는데, 이는 사전 학습된 비디오 디퓨전 백본에 스타일 어댑터를 추가하고, 소스-스타일 대응 관계가 있는 짝지어진 정지 이미지 데이터를 활용하여 학습하는 비디오-투-비디오 스타일 변환 프레임워크입니다. PickStyle은 조건부 모듈의 self-attention 레이어에 저랭크 어댑터를 삽입하여, 비디오 콘텐츠와 스타일 간의 강력한 정렬을 유지하면서도 모션-스타일 변환을 위한 효율적인 특수화를 가능하게 합니다. 정적 이미지 감독과 동적 비디오 간의 격차를 해소하기 위해, 우리는 카메라 모션을 시뮬레이션하는 공유 증강을 적용하여 짝지어진 이미지로부터 합성 훈련 클립을 구성함으로써 시간적 사전 정보가 보존되도록 합니다. 또한, 우리는 Context-Style Classifier-Free Guidance(CS-CFG)를 소개하는데, 이는 classifier-free guidance를 독립적인 텍스트(스타일)와 비디오(콘텍스트) 방향으로 분해하는 새로운 방법입니다. CS-CFG는 생성된 비디오에서 콘텍스트가 보존되면서도 스타일이 효과적으로 전달되도록 보장합니다. 벤치마크를 통한 실험 결과, 우리의 접근 방식은 시간적으로 일관되고 스타일이 충실하며 콘텐츠를 보존하는 비디오 변환을 달성하여, 기존 베이스라인을 정성적 및 정량적으로 능가함을 보여줍니다.
English
We address the task of video style transfer with diffusion models, where the
goal is to preserve the context of an input video while rendering it in a
target style specified by a text prompt. A major challenge is the lack of
paired video data for supervision. We propose PickStyle, a video-to-video style
transfer framework that augments pretrained video diffusion backbones with
style adapters and benefits from paired still image data with source-style
correspondences for training. PickStyle inserts low-rank adapters into the
self-attention layers of conditioning modules, enabling efficient
specialization for motion-style transfer while maintaining strong alignment
between video content and style. To bridge the gap between static image
supervision and dynamic video, we construct synthetic training clips from
paired images by applying shared augmentations that simulate camera motion,
ensuring temporal priors are preserved. In addition, we introduce Context-Style
Classifier-Free Guidance (CS-CFG), a novel factorization of classifier-free
guidance into independent text (style) and video (context) directions. CS-CFG
ensures that context is preserved in generated video while the style is
effectively transferred. Experiments across benchmarks show that our approach
achieves temporally coherent, style-faithful, and content-preserving video
translations, outperforming existing baselines both qualitatively and
quantitatively.