CustomCrafter: 동작 및 개념 구성 능력을 보존한 맞춤형 비디오 생성
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
August 23, 2024
저자: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI
초록
사용자 지정 비디오 생성은 텍스트 프롬프트와 주제의 참조 이미지에 따라 안내되는 고품질 비디오를 생성하는 것을 목표로 합니다. 그러나 정적 이미지만을 훈련시키기 때문에 주제 학습의 세밀 조정 과정이 비디오 확산 모델(VDMs)의 개념을 결합하고 움직임을 생성하는 능력을 방해합니다. 이러한 능력을 복원하기 위해 일부 방법은 모델을 세밀 조정하거나 안내하기 위해 프롬프트와 유사한 추가 비디오를 사용합니다. 이는 사용자에게 매우 불편한 다른 움직임을 생성할 때 안내 비디오를 자주 변경하고 심지어 모델을 다시 조정해야 하는 것을 필요로 합니다. 본 논문에서는 추가 비디오나 세밀 조정 없이 모델의 움직임 생성 및 개념 결합 능력을 보존하는 새로운 프레임워크인 CustomCrafter를 제안합니다. 개념 결합 능력을 보존하기 위해 VDMs의 몇 가지 매개변수를 업데이트하는 플러그 앤 플레이 모듈을 설계하여 모델이 새로운 주제의 외관 세부 사항을 포착하고 개념 결합 능력을 향상시키도록 합니다. 움직임 생성에 대해, VDMs는 잡음 제거의 초기 단계에서 비디오의 움직임을 복원하는 경향이 있으며, 나중 단계에서 주제 세부 사항의 복원에 집중합니다. 따라서 우리는 동적 가중 비디오 샘플링 전략을 제안합니다. 주제 학습 모듈의 플러그인 기능을 활용하여 잡음 제거 초기 단계에서 이 모듈이 움직임 생성에 미치는 영향을 줄이고 VDMs의 움직임 생성 능력을 보존합니다. 잡음 제거의 나중 단계에서 이 모듈을 복원하여 지정된 주제의 외관 세부 사항을 복원함으로써 주제의 외관의 충실성을 보장합니다. 실험 결과는 우리의 방법이 이전 방법과 비교하여 상당한 개선이 있음을 보여줍니다.
English
Customized video generation aims to generate high-quality videos guided by
text prompts and subject's reference images. However, since it is only trained
on static images, the fine-tuning process of subject learning disrupts
abilities of video diffusion models (VDMs) to combine concepts and generate
motions. To restore these abilities, some methods use additional video similar
to the prompt to fine-tune or guide the model. This requires frequent changes
of guiding videos and even re-tuning of the model when generating different
motions, which is very inconvenient for users. In this paper, we propose
CustomCrafter, a novel framework that preserves the model's motion generation
and conceptual combination abilities without additional video and fine-tuning
to recovery. For preserving conceptual combination ability, we design a
plug-and-play module to update few parameters in VDMs, enhancing the model's
ability to capture the appearance details and the ability of concept
combinations for new subjects. For motion generation, we observed that VDMs
tend to restore the motion of video in the early stage of denoising, while
focusing on the recovery of subject details in the later stage. Therefore, we
propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our
subject learning modules, we reduce the impact of this module on motion
generation in the early stage of denoising, preserving the ability to generate
motion of VDMs. In the later stage of denoising, we restore this module to
repair the appearance details of the specified subject, thereby ensuring the
fidelity of the subject's appearance. Experimental results show that our method
has a significant improvement compared to previous methods.Summary
AI-Generated Summary