CustomCrafter: Generación de Video Personalizada con Preservación de Movimiento y Habilidades de Composición de Conceptos

Resumen

La generación de video personalizado tiene como objetivo generar videos de alta calidad guiados por indicaciones de texto e imágenes de referencia del sujeto. Sin embargo, dado que solo se entrena con imágenes estáticas, el proceso de ajuste fino del aprendizaje del sujeto interrumpe las habilidades de los modelos de difusión de video (VDMs) para combinar conceptos y generar movimientos. Para restaurar estas habilidades, algunos métodos utilizan videos adicionales similares a la indicación para ajustar o guiar el modelo. Esto requiere cambios frecuentes de videos guía e incluso volver a ajustar el modelo al generar diferentes movimientos, lo cual es muy incómodo para los usuarios. En este documento, proponemos CustomCrafter, un nuevo marco que preserva la generación de movimiento del modelo y las habilidades de combinación conceptual sin video adicional y ajuste fino para la recuperación. Para preservar la habilidad de combinación conceptual, diseñamos un módulo plug-and-play para actualizar unos pocos parámetros en los VDMs, mejorando la capacidad del modelo para capturar los detalles de apariencia y la habilidad de combinación de conceptos para nuevos sujetos. Para la generación de movimiento, observamos que los VDMs tienden a restaurar el movimiento del video en la etapa temprana de eliminación de ruido, centrándose en la recuperación de los detalles del sujeto en la etapa posterior. Por lo tanto, proponemos la Estrategia de Muestreo de Video con Peso Dinámico. Utilizando la capacidad de enchufabilidad de nuestros módulos de aprendizaje de sujetos, reducimos el impacto de este módulo en la generación de movimiento en la etapa temprana de eliminación de ruido, preservando la capacidad de generar movimiento de los VDMs. En la etapa posterior de eliminación de ruido, restauramos este módulo para reparar los detalles de apariencia del sujeto especificado, garantizando así la fidelidad de la apariencia del sujeto. Los resultados experimentales muestran que nuestro método tiene una mejora significativa en comparación con métodos anteriores.

English

Customized video generation aims to generate high-quality videos guided by text prompts and subject's reference images. However, since it is only trained on static images, the fine-tuning process of subject learning disrupts abilities of video diffusion models (VDMs) to combine concepts and generate motions. To restore these abilities, some methods use additional video similar to the prompt to fine-tune or guide the model. This requires frequent changes of guiding videos and even re-tuning of the model when generating different motions, which is very inconvenient for users. In this paper, we propose CustomCrafter, a novel framework that preserves the model's motion generation and conceptual combination abilities without additional video and fine-tuning to recovery. For preserving conceptual combination ability, we design a plug-and-play module to update few parameters in VDMs, enhancing the model's ability to capture the appearance details and the ability of concept combinations for new subjects. For motion generation, we observed that VDMs tend to restore the motion of video in the early stage of denoising, while focusing on the recovery of subject details in the later stage. Therefore, we propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our subject learning modules, we reduce the impact of this module on motion generation in the early stage of denoising, preserving the ability to generate motion of VDMs. In the later stage of denoising, we restore this module to repair the appearance details of the specified subject, thereby ensuring the fidelity of the subject's appearance. Experimental results show that our method has a significant improvement compared to previous methods.

CustomCrafter: Generación de Video Personalizada con Preservación de Movimiento y Habilidades de Composición de Conceptos

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

Resumen

Support