주체 기반 비디오 생성: 분리된 정체성과 모션을 통한 접근
Subject-driven Video Generation via Disentangled Identity and Motion
April 23, 2025
저자: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
cs.AI
초록
우리는 제로샷 설정에서 추가 튜닝 없이 주체 특정 학습과 시간적 동역학을 분리하여 주체 중심 맞춤형 비디오 생성 모델을 학습하는 방법을 제안한다. 튜닝이 필요 없는 기존의 비디오 맞춤화 방법은 대규모 주석이 달린 비디오 데이터셋에 의존하는 경우가 많으며, 이는 계산 비용이 많이 들고 광범위한 주석 작업이 필요하다. 이전 접근 방식과 달리, 우리는 이미지 맞춤화 데이터셋을 직접 사용하여 비디오 맞춤화 모델을 학습하는 방법을 도입함으로써 비디오 맞춤화를 두 가지로 분해한다: (1) 이미지 맞춤화 데이터셋을 통한 주체 주입과 (2) 이미지-비디오 학습 방법을 통해 소규모의 주석이 없는 비디오 집합을 사용한 시간적 모델링 보존. 또한, 이미지-비디오 미세 조정 중에 무작위 이미지 토큰 드롭과 무작위 이미지 초기화를 적용하여 복사-붙여넣기 문제를 완화한다. 더 나아가, 주체 특정 특징과 시간적 특징의 공동 최적화 과정에서 확률적 전환을 도입하여 치명적 망각(catastrophic forgetting)을 완화한다. 우리의 방법은 강력한 주체 일관성과 확장성을 달성하며, 제로샷 설정에서 기존의 비디오 맞춤화 모델을 능가하여 우리 프레임워크의 효과성을 입증한다.
English
We propose to train a subject-driven customized video generation model
through decoupling the subject-specific learning from temporal dynamics in
zero-shot without additional tuning. A traditional method for video
customization that is tuning-free often relies on large, annotated video
datasets, which are computationally expensive and require extensive annotation.
In contrast to the previous approach, we introduce the use of an image
customization dataset directly on training video customization models,
factorizing the video customization into two folds: (1) identity injection
through image customization dataset and (2) temporal modeling preservation with
a small set of unannotated videos through the image-to-video training method.
Additionally, we employ random image token dropping with randomized image
initialization during image-to-video fine-tuning to mitigate the copy-and-paste
issue. To further enhance learning, we introduce stochastic switching during
joint optimization of subject-specific and temporal features, mitigating
catastrophic forgetting. Our method achieves strong subject consistency and
scalability, outperforming existing video customization models in zero-shot
settings, demonstrating the effectiveness of our framework.Summary
AI-Generated Summary