Geração de Vídeo Orientada por Sujeito via Separação de Identidade e Movimento

Resumo

Propomos treinar um modelo de geração de vídeo personalizado orientado por sujeito, desacoplando o aprendizado específico do sujeito da dinâmica temporal em configuração zero-shot, sem ajustes adicionais. Um método tradicional para personalização de vídeo que não requer ajustes frequentemente depende de grandes conjuntos de dados de vídeo anotados, que são computacionalmente caros e exigem extensa anotação. Em contraste com a abordagem anterior, introduzimos o uso de um conjunto de dados de personalização de imagem diretamente no treinamento de modelos de personalização de vídeo, fatorizando a personalização de vídeo em dois aspectos: (1) injeção de identidade por meio de um conjunto de dados de personalização de imagem e (2) preservação da modelagem temporal com um pequeno conjunto de vídeos não anotados por meio do método de treinamento de imagem para vídeo. Além disso, empregamos o descarte aleatório de tokens de imagem com inicialização aleatória de imagem durante o ajuste fino de imagem para vídeo para mitigar o problema de copiar e colar. Para aprimorar ainda mais o aprendizado, introduzimos a alternância estocástica durante a otimização conjunta de características específicas do sujeito e temporais, mitigando o esquecimento catastrófico. Nosso método alcança forte consistência do sujeito e escalabilidade, superando os modelos existentes de personalização de vídeo em configurações zero-shot, demonstrando a eficácia de nossa estrutura.

English

We propose to train a subject-driven customized video generation model through decoupling the subject-specific learning from temporal dynamics in zero-shot without additional tuning. A traditional method for video customization that is tuning-free often relies on large, annotated video datasets, which are computationally expensive and require extensive annotation. In contrast to the previous approach, we introduce the use of an image customization dataset directly on training video customization models, factorizing the video customization into two folds: (1) identity injection through image customization dataset and (2) temporal modeling preservation with a small set of unannotated videos through the image-to-video training method. Additionally, we employ random image token dropping with randomized image initialization during image-to-video fine-tuning to mitigate the copy-and-paste issue. To further enhance learning, we introduce stochastic switching during joint optimization of subject-specific and temporal features, mitigating catastrophic forgetting. Our method achieves strong subject consistency and scalability, outperforming existing video customization models in zero-shot settings, demonstrating the effectiveness of our framework.

Geração de Vídeo Orientada por Sujeito via Separação de Identidade e Movimento

Subject-driven Video Generation via Disentangled Identity and Motion

Resumo

Summary

Support

Support