CustomCrafter: Geração Personalizada de Vídeo com Preservação de Movimento e Habilidades de Composição de Conceitos
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
August 23, 2024
Autores: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI
Resumo
A geração de vídeo personalizada visa gerar vídeos de alta qualidade guiados por prompts de texto e imagens de referência do sujeito. No entanto, uma vez que é treinada apenas em imagens estáticas, o processo de ajuste fino da aprendizagem do sujeito perturba as habilidades dos modelos de difusão de vídeo (VDMs) de combinar conceitos e gerar movimentos. Para restaurar essas habilidades, alguns métodos utilizam vídeos adicionais semelhantes ao prompt para ajustar ou orientar o modelo. Isso requer mudanças frequentes de vídeos orientadores e até mesmo a reajustagem do modelo ao gerar diferentes movimentos, o que é muito inconveniente para os usuários. Neste artigo, propomos o CustomCrafter, um novo framework que preserva a geração de movimento do modelo e as habilidades de combinação conceitual sem vídeo adicional e ajuste fino para recuperação. Para preservar a capacidade de combinação conceitual, projetamos um módulo plug-and-play para atualizar alguns parâmetros nos VDMs, aprimorando a capacidade do modelo de capturar os detalhes de aparência e a capacidade de combinação de conceitos para novos sujeitos. Para a geração de movimento, observamos que os VDMs tendem a restaurar o movimento do vídeo na fase inicial de remoção de ruído, enquanto se concentram na recuperação dos detalhes do sujeito na fase posterior. Portanto, propomos a Estratégia de Amostragem Dinâmica Ponderada de Vídeo. Usando a plugabilidade de nossos módulos de aprendizagem de sujeito, reduzimos o impacto deste módulo na geração de movimento na fase inicial de remoção de ruído, preservando a capacidade de gerar movimento dos VDMs. Na fase posterior de remoção de ruído, restauramos este módulo para reparar os detalhes de aparência do sujeito especificado, garantindo assim a fidelidade da aparência do sujeito. Resultados experimentais mostram que nosso método apresenta uma melhoria significativa em comparação com métodos anteriores.
English
Customized video generation aims to generate high-quality videos guided by
text prompts and subject's reference images. However, since it is only trained
on static images, the fine-tuning process of subject learning disrupts
abilities of video diffusion models (VDMs) to combine concepts and generate
motions. To restore these abilities, some methods use additional video similar
to the prompt to fine-tune or guide the model. This requires frequent changes
of guiding videos and even re-tuning of the model when generating different
motions, which is very inconvenient for users. In this paper, we propose
CustomCrafter, a novel framework that preserves the model's motion generation
and conceptual combination abilities without additional video and fine-tuning
to recovery. For preserving conceptual combination ability, we design a
plug-and-play module to update few parameters in VDMs, enhancing the model's
ability to capture the appearance details and the ability of concept
combinations for new subjects. For motion generation, we observed that VDMs
tend to restore the motion of video in the early stage of denoising, while
focusing on the recovery of subject details in the later stage. Therefore, we
propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our
subject learning modules, we reduce the impact of this module on motion
generation in the early stage of denoising, preserving the ability to generate
motion of VDMs. In the later stage of denoising, we restore this module to
repair the appearance details of the specified subject, thereby ensuring the
fidelity of the subject's appearance. Experimental results show that our method
has a significant improvement compared to previous methods.Summary
AI-Generated Summary