Generación de videos impulsada por sujetos mediante la separación de identidad y movimiento

Resumen

Proponemos entrenar un modelo de generación de videos personalizados basado en sujetos mediante la separación del aprendizaje específico del sujeto de la dinámica temporal en un entorno de cero-shot sin ajustes adicionales. Un método tradicional para la personalización de videos que no requiere ajustes suele depender de grandes conjuntos de datos de videos anotados, los cuales son computacionalmente costosos y requieren una extensa anotación. En contraste con el enfoque anterior, introducimos el uso directo de un conjunto de datos de personalización de imágenes para entrenar modelos de personalización de videos, factorizando la personalización de videos en dos aspectos: (1) inyección de identidad a través del conjunto de datos de personalización de imágenes y (2) preservación del modelado temporal con un pequeño conjunto de videos no anotados mediante el método de entrenamiento de imagen a video. Además, empleamos la eliminación aleatoria de tokens de imágenes con inicialización aleatoria de imágenes durante el ajuste fino de imagen a video para mitigar el problema de copiar y pegar. Para mejorar aún más el aprendizaje, introducimos un cambio estocástico durante la optimización conjunta de características específicas del sujeto y temporales, mitigando el olvido catastrófico. Nuestro método logra una fuerte consistencia del sujeto y escalabilidad, superando a los modelos existentes de personalización de videos en entornos de cero-shot, demostrando la efectividad de nuestro marco de trabajo.

English

We propose to train a subject-driven customized video generation model through decoupling the subject-specific learning from temporal dynamics in zero-shot without additional tuning. A traditional method for video customization that is tuning-free often relies on large, annotated video datasets, which are computationally expensive and require extensive annotation. In contrast to the previous approach, we introduce the use of an image customization dataset directly on training video customization models, factorizing the video customization into two folds: (1) identity injection through image customization dataset and (2) temporal modeling preservation with a small set of unannotated videos through the image-to-video training method. Additionally, we employ random image token dropping with randomized image initialization during image-to-video fine-tuning to mitigate the copy-and-paste issue. To further enhance learning, we introduce stochastic switching during joint optimization of subject-specific and temporal features, mitigating catastrophic forgetting. Our method achieves strong subject consistency and scalability, outperforming existing video customization models in zero-shot settings, demonstrating the effectiveness of our framework.

Generación de videos impulsada por sujetos mediante la separación de identidad y movimiento

Subject-driven Video Generation via Disentangled Identity and Motion

Resumen

Support