Generazione di video guidata dal soggetto attraverso la separazione di identità e movimento
Subject-driven Video Generation via Disentangled Identity and Motion
April 23, 2025
Autori: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
cs.AI
Abstract
Proponiamo di addestrare un modello di generazione video personalizzato basato su soggetti specifici, disaccoppiando l'apprendimento specifico del soggetto dalla dinamica temporale in modalità zero-shot senza ulteriori ottimizzazioni. Un metodo tradizionale per la personalizzazione video che non richiede ottimizzazione si basa spesso su grandi dataset video annotati, che sono computazionalmente costosi e richiedono un'annotazione estensiva. A differenza dell'approccio precedente, introduciamo l'uso diretto di un dataset di personalizzazione di immagini per addestrare modelli di personalizzazione video, fattorizzando la personalizzazione video in due aspetti: (1) iniezione dell'identità attraverso un dataset di personalizzazione di immagini e (2) preservazione della modellazione temporale con un piccolo insieme di video non annotati attraverso il metodo di addestramento da immagine a video. Inoltre, impieghiamo l'eliminazione casuale di token di immagine con inizializzazione casuale delle immagini durante la messa a punto da immagine a video per mitigare il problema del copia e incolla. Per migliorare ulteriormente l'apprendimento, introduciamo uno switching stocastico durante l'ottimizzazione congiunta delle caratteristiche specifiche del soggetto e delle caratteristiche temporali, mitigando l'oblio catastrofico. Il nostro metodo raggiunge una forte coerenza del soggetto e scalabilità, superando i modelli esistenti di personalizzazione video in contesti zero-shot, dimostrando l'efficacia del nostro framework.
English
We propose to train a subject-driven customized video generation model
through decoupling the subject-specific learning from temporal dynamics in
zero-shot without additional tuning. A traditional method for video
customization that is tuning-free often relies on large, annotated video
datasets, which are computationally expensive and require extensive annotation.
In contrast to the previous approach, we introduce the use of an image
customization dataset directly on training video customization models,
factorizing the video customization into two folds: (1) identity injection
through image customization dataset and (2) temporal modeling preservation with
a small set of unannotated videos through the image-to-video training method.
Additionally, we employ random image token dropping with randomized image
initialization during image-to-video fine-tuning to mitigate the copy-and-paste
issue. To further enhance learning, we introduce stochastic switching during
joint optimization of subject-specific and temporal features, mitigating
catastrophic forgetting. Our method achieves strong subject consistency and
scalability, outperforming existing video customization models in zero-shot
settings, demonstrating the effectiveness of our framework.Summary
AI-Generated Summary