AnimateDiff: Anima tus modelos de difusión de texto a imagen personalizados sin ajustes específicos
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
July 10, 2023
Autores: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI
Resumen
Con el avance de los modelos de texto a imagen (por ejemplo, Stable Diffusion) y las técnicas de personalización correspondientes como DreamBooth y LoRA, cualquier persona puede materializar su imaginación en imágenes de alta calidad a un costo asequible. Posteriormente, existe una gran demanda de técnicas de animación de imágenes para combinar aún más las imágenes estáticas generadas con dinámicas de movimiento. En este informe, proponemos un marco práctico para animar la mayoría de los modelos personalizados de texto a imagen existentes de una vez por todas, ahorrando esfuerzos en ajustes específicos del modelo. En el núcleo del marco propuesto se encuentra la inserción de un módulo de modelado de movimiento recién inicializado en el modelo congelado de texto a imagen y su entrenamiento en clips de video para destilar prioridades de movimiento razonables. Una vez entrenado, al simplemente inyectar este módulo de modelado de movimiento, todas las versiones personalizadas derivadas del mismo modelo base de texto a imagen (T2I) se convierten fácilmente en modelos impulsados por texto que producen imágenes animadas diversas y personalizadas. Realizamos nuestra evaluación en varios modelos representativos y públicos de texto a imagen personalizados, abarcando tanto imágenes de anime como fotografías realistas, y demostramos que nuestro marco propuesto ayuda a estos modelos a generar clips de animación temporalmente suaves mientras preservan el dominio y la diversidad de sus salidas. El código y los pesos preentrenados estarán disponibles públicamente en https://animatediff.github.io/.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and
corresponding personalization techniques such as DreamBooth and LoRA, everyone
can manifest their imagination into high-quality images at an affordable cost.
Subsequently, there is a great demand for image animation techniques to further
combine generated static images with motion dynamics. In this report, we
propose a practical framework to animate most of the existing personalized
text-to-image models once and for all, saving efforts in model-specific tuning.
At the core of the proposed framework is to insert a newly initialized motion
modeling module into the frozen text-to-image model and train it on video clips
to distill reasonable motion priors. Once trained, by simply injecting this
motion modeling module, all personalized versions derived from the same base
T2I readily become text-driven models that produce diverse and personalized
animated images. We conduct our evaluation on several public representative
personalized text-to-image models across anime pictures and realistic
photographs, and demonstrate that our proposed framework helps these models
generate temporally smooth animation clips while preserving the domain and
diversity of their outputs. Code and pre-trained weights will be publicly
available at https://animatediff.github.io/ .