CustomCrafter: Generación de Video Personalizada con Preservación de Movimiento y Habilidades de Composición de Conceptos
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
August 23, 2024
Autores: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI
Resumen
La generación de video personalizado tiene como objetivo generar videos de alta calidad guiados por indicaciones de texto e imágenes de referencia del sujeto. Sin embargo, dado que solo se entrena con imágenes estáticas, el proceso de ajuste fino del aprendizaje del sujeto interrumpe las habilidades de los modelos de difusión de video (VDMs) para combinar conceptos y generar movimientos. Para restaurar estas habilidades, algunos métodos utilizan videos adicionales similares a la indicación para ajustar o guiar el modelo. Esto requiere cambios frecuentes de videos guía e incluso volver a ajustar el modelo al generar diferentes movimientos, lo cual es muy incómodo para los usuarios. En este documento, proponemos CustomCrafter, un nuevo marco que preserva la generación de movimiento del modelo y las habilidades de combinación conceptual sin video adicional y ajuste fino para la recuperación. Para preservar la habilidad de combinación conceptual, diseñamos un módulo plug-and-play para actualizar unos pocos parámetros en los VDMs, mejorando la capacidad del modelo para capturar los detalles de apariencia y la habilidad de combinación de conceptos para nuevos sujetos. Para la generación de movimiento, observamos que los VDMs tienden a restaurar el movimiento del video en la etapa temprana de eliminación de ruido, centrándose en la recuperación de los detalles del sujeto en la etapa posterior. Por lo tanto, proponemos la Estrategia de Muestreo de Video con Peso Dinámico. Utilizando la capacidad de enchufabilidad de nuestros módulos de aprendizaje de sujetos, reducimos el impacto de este módulo en la generación de movimiento en la etapa temprana de eliminación de ruido, preservando la capacidad de generar movimiento de los VDMs. En la etapa posterior de eliminación de ruido, restauramos este módulo para reparar los detalles de apariencia del sujeto especificado, garantizando así la fidelidad de la apariencia del sujeto. Los resultados experimentales muestran que nuestro método tiene una mejora significativa en comparación con métodos anteriores.
English
Customized video generation aims to generate high-quality videos guided by
text prompts and subject's reference images. However, since it is only trained
on static images, the fine-tuning process of subject learning disrupts
abilities of video diffusion models (VDMs) to combine concepts and generate
motions. To restore these abilities, some methods use additional video similar
to the prompt to fine-tune or guide the model. This requires frequent changes
of guiding videos and even re-tuning of the model when generating different
motions, which is very inconvenient for users. In this paper, we propose
CustomCrafter, a novel framework that preserves the model's motion generation
and conceptual combination abilities without additional video and fine-tuning
to recovery. For preserving conceptual combination ability, we design a
plug-and-play module to update few parameters in VDMs, enhancing the model's
ability to capture the appearance details and the ability of concept
combinations for new subjects. For motion generation, we observed that VDMs
tend to restore the motion of video in the early stage of denoising, while
focusing on the recovery of subject details in the later stage. Therefore, we
propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our
subject learning modules, we reduce the impact of this module on motion
generation in the early stage of denoising, preserving the ability to generate
motion of VDMs. In the later stage of denoising, we restore this module to
repair the appearance details of the specified subject, thereby ensuring the
fidelity of the subject's appearance. Experimental results show that our method
has a significant improvement compared to previous methods.Summary
AI-Generated Summary