AnimateDiff: Anima tus modelos de difusión de texto a imagen personalizados sin ajustes específicos

Resumen

Con el avance de los modelos de texto a imagen (por ejemplo, Stable Diffusion) y las técnicas de personalización correspondientes como DreamBooth y LoRA, cualquier persona puede materializar su imaginación en imágenes de alta calidad a un costo asequible. Posteriormente, existe una gran demanda de técnicas de animación de imágenes para combinar aún más las imágenes estáticas generadas con dinámicas de movimiento. En este informe, proponemos un marco práctico para animar la mayoría de los modelos personalizados de texto a imagen existentes de una vez por todas, ahorrando esfuerzos en ajustes específicos del modelo. En el núcleo del marco propuesto se encuentra la inserción de un módulo de modelado de movimiento recién inicializado en el modelo congelado de texto a imagen y su entrenamiento en clips de video para destilar prioridades de movimiento razonables. Una vez entrenado, al simplemente inyectar este módulo de modelado de movimiento, todas las versiones personalizadas derivadas del mismo modelo base de texto a imagen (T2I) se convierten fácilmente en modelos impulsados por texto que producen imágenes animadas diversas y personalizadas. Realizamos nuestra evaluación en varios modelos representativos y públicos de texto a imagen personalizados, abarcando tanto imágenes de anime como fotografías realistas, y demostramos que nuestro marco propuesto ayuda a estos modelos a generar clips de animación temporalmente suaves mientras preservan el dominio y la diversidad de sus salidas. El código y los pesos preentrenados estarán disponibles públicamente en https://animatediff.github.io/.

English

With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .

AnimateDiff: Anima tus modelos de difusión de texto a imagen personalizados sin ajustes específicos

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Resumen

Support