Geração de Vídeo Orientada por Sujeito via Separação de Identidade e Movimento
Subject-driven Video Generation via Disentangled Identity and Motion
April 23, 2025
Autores: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
cs.AI
Resumo
Propomos treinar um modelo de geração de vídeo personalizado orientado por sujeito, desacoplando o aprendizado específico do sujeito da dinâmica temporal em configuração zero-shot, sem ajustes adicionais. Um método tradicional para personalização de vídeo que não requer ajustes frequentemente depende de grandes conjuntos de dados de vídeo anotados, que são computacionalmente caros e exigem extensa anotação. Em contraste com a abordagem anterior, introduzimos o uso de um conjunto de dados de personalização de imagem diretamente no treinamento de modelos de personalização de vídeo, fatorizando a personalização de vídeo em dois aspectos: (1) injeção de identidade por meio de um conjunto de dados de personalização de imagem e (2) preservação da modelagem temporal com um pequeno conjunto de vídeos não anotados por meio do método de treinamento de imagem para vídeo. Além disso, empregamos o descarte aleatório de tokens de imagem com inicialização aleatória de imagem durante o ajuste fino de imagem para vídeo para mitigar o problema de copiar e colar. Para aprimorar ainda mais o aprendizado, introduzimos a alternância estocástica durante a otimização conjunta de características específicas do sujeito e temporais, mitigando o esquecimento catastrófico. Nosso método alcança forte consistência do sujeito e escalabilidade, superando os modelos existentes de personalização de vídeo em configurações zero-shot, demonstrando a eficácia de nossa estrutura.
English
We propose to train a subject-driven customized video generation model
through decoupling the subject-specific learning from temporal dynamics in
zero-shot without additional tuning. A traditional method for video
customization that is tuning-free often relies on large, annotated video
datasets, which are computationally expensive and require extensive annotation.
In contrast to the previous approach, we introduce the use of an image
customization dataset directly on training video customization models,
factorizing the video customization into two folds: (1) identity injection
through image customization dataset and (2) temporal modeling preservation with
a small set of unannotated videos through the image-to-video training method.
Additionally, we employ random image token dropping with randomized image
initialization during image-to-video fine-tuning to mitigate the copy-and-paste
issue. To further enhance learning, we introduce stochastic switching during
joint optimization of subject-specific and temporal features, mitigating
catastrophic forgetting. Our method achieves strong subject consistency and
scalability, outperforming existing video customization models in zero-shot
settings, demonstrating the effectiveness of our framework.Summary
AI-Generated Summary