ChatPaper.aiChatPaper

CustomCrafter: Generazione Video Personalizzata con Preservazione delle Capacità di Movimento e Composizione Concettuale

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

August 23, 2024
Autori: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI

Abstract

La generazione personalizzata di video mira a produrre video di alta qualità guidati da prompt testuali e immagini di riferimento del soggetto. Tuttavia, poiché viene addestrata solo su immagini statiche, il processo di fine-tuning dell'apprendimento del soggetto compromette le capacità dei modelli di diffusione video (VDM) di combinare concetti e generare movimenti. Per ripristinare queste capacità, alcuni metodi utilizzano video aggiuntivi simili al prompt per eseguire il fine-tuning o guidare il modello. Ciò richiede frequenti cambiamenti dei video guida e persino un ri-ottimizzazione del modello quando si generano movimenti diversi, il che risulta molto scomodo per gli utenti. In questo articolo, proponiamo CustomCrafter, un nuovo framework che preserva le capacità di generazione del movimento e di combinazione concettuale del modello senza la necessità di video aggiuntivi e di un fine-tuning di recupero. Per preservare la capacità di combinazione concettuale, progettiamo un modulo plug-and-play per aggiornare pochi parametri nei VDM, migliorando la capacità del modello di catturare i dettagli dell'aspetto e la capacità di combinare concetti per nuovi soggetti. Per la generazione del movimento, abbiamo osservato che i VDM tendono a ripristinare il movimento del video nella fase iniziale del denoising, mentre si concentrano sul recupero dei dettagli del soggetto nella fase successiva. Pertanto, proponiamo una Strategia Dinamica di Campionamento Video Ponderato. Sfruttando la pluggabilità dei nostri moduli di apprendimento del soggetto, riduciamo l'impatto di questo modulo sulla generazione del movimento nella fase iniziale del denoising, preservando la capacità dei VDM di generare movimento. Nella fase successiva del denoising, ripristiniamo questo modulo per riparare i dettagli dell'aspetto del soggetto specificato, garantendo così la fedeltà dell'aspetto del soggetto. I risultati sperimentali dimostrano che il nostro metodo offre un miglioramento significativo rispetto ai metodi precedenti.
English
Customized video generation aims to generate high-quality videos guided by text prompts and subject's reference images. However, since it is only trained on static images, the fine-tuning process of subject learning disrupts abilities of video diffusion models (VDMs) to combine concepts and generate motions. To restore these abilities, some methods use additional video similar to the prompt to fine-tune or guide the model. This requires frequent changes of guiding videos and even re-tuning of the model when generating different motions, which is very inconvenient for users. In this paper, we propose CustomCrafter, a novel framework that preserves the model's motion generation and conceptual combination abilities without additional video and fine-tuning to recovery. For preserving conceptual combination ability, we design a plug-and-play module to update few parameters in VDMs, enhancing the model's ability to capture the appearance details and the ability of concept combinations for new subjects. For motion generation, we observed that VDMs tend to restore the motion of video in the early stage of denoising, while focusing on the recovery of subject details in the later stage. Therefore, we propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our subject learning modules, we reduce the impact of this module on motion generation in the early stage of denoising, preserving the ability to generate motion of VDMs. In the later stage of denoising, we restore this module to repair the appearance details of the specified subject, thereby ensuring the fidelity of the subject's appearance. Experimental results show that our method has a significant improvement compared to previous methods.
PDF122November 16, 2024