Generación de videos impulsada por sujetos mediante la separación de identidad y movimiento
Subject-driven Video Generation via Disentangled Identity and Motion
April 23, 2025
Autores: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
cs.AI
Resumen
Proponemos entrenar un modelo de generación de videos personalizados basado en sujetos mediante la separación del aprendizaje específico del sujeto de la dinámica temporal en un entorno de cero-shot sin ajustes adicionales. Un método tradicional para la personalización de videos que no requiere ajustes suele depender de grandes conjuntos de datos de videos anotados, los cuales son computacionalmente costosos y requieren una extensa anotación. En contraste con el enfoque anterior, introducimos el uso directo de un conjunto de datos de personalización de imágenes para entrenar modelos de personalización de videos, factorizando la personalización de videos en dos aspectos: (1) inyección de identidad a través del conjunto de datos de personalización de imágenes y (2) preservación del modelado temporal con un pequeño conjunto de videos no anotados mediante el método de entrenamiento de imagen a video. Además, empleamos la eliminación aleatoria de tokens de imágenes con inicialización aleatoria de imágenes durante el ajuste fino de imagen a video para mitigar el problema de copiar y pegar. Para mejorar aún más el aprendizaje, introducimos un cambio estocástico durante la optimización conjunta de características específicas del sujeto y temporales, mitigando el olvido catastrófico. Nuestro método logra una fuerte consistencia del sujeto y escalabilidad, superando a los modelos existentes de personalización de videos en entornos de cero-shot, demostrando la efectividad de nuestro marco de trabajo.
English
We propose to train a subject-driven customized video generation model
through decoupling the subject-specific learning from temporal dynamics in
zero-shot without additional tuning. A traditional method for video
customization that is tuning-free often relies on large, annotated video
datasets, which are computationally expensive and require extensive annotation.
In contrast to the previous approach, we introduce the use of an image
customization dataset directly on training video customization models,
factorizing the video customization into two folds: (1) identity injection
through image customization dataset and (2) temporal modeling preservation with
a small set of unannotated videos through the image-to-video training method.
Additionally, we employ random image token dropping with randomized image
initialization during image-to-video fine-tuning to mitigate the copy-and-paste
issue. To further enhance learning, we introduce stochastic switching during
joint optimization of subject-specific and temporal features, mitigating
catastrophic forgetting. Our method achieves strong subject consistency and
scalability, outperforming existing video customization models in zero-shot
settings, demonstrating the effectiveness of our framework.Summary
AI-Generated Summary