AnimateDiff: Anime Seus Modelos de Difusão de Texto para Imagem Personalizados sem Ajustes Específicos
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
July 10, 2023
Autores: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI
Resumo
Com o avanço dos modelos de texto para imagem (por exemplo, Stable Diffusion) e das técnicas de personalização correspondentes, como DreamBooth e LoRA, todos podem transformar sua imaginação em imagens de alta qualidade a um custo acessível. Consequentemente, há uma grande demanda por técnicas de animação de imagens para combinar ainda mais as imagens estáticas geradas com dinâmicas de movimento. Neste relatório, propomos uma estrutura prática para animar a maioria dos modelos personalizados de texto para imagem existentes de uma vez por todas, economizando esforços em ajustes específicos para cada modelo. No cerne da estrutura proposta está a inserção de um módulo de modelagem de movimento recém-inicializado no modelo de texto para imagem congelado e seu treinamento em clipes de vídeo para destilar prioridades de movimento razoáveis. Uma vez treinado, ao simplesmente injetar esse módulo de modelagem de movimento, todas as versões personalizadas derivadas do mesmo modelo base de texto para imagem (T2I) tornam-se modelos orientados por texto que produzem imagens animadas diversas e personalizadas. Realizamos nossa avaliação em vários modelos representativos de texto para imagem personalizados, abrangendo desde imagens de anime até fotografias realistas, e demonstramos que a estrutura proposta ajuda esses modelos a gerar clipes de animação temporalmente suaves, preservando o domínio e a diversidade de suas saídas. O código e os pesos pré-treinados estarão publicamente disponíveis em https://animatediff.github.io/.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and
corresponding personalization techniques such as DreamBooth and LoRA, everyone
can manifest their imagination into high-quality images at an affordable cost.
Subsequently, there is a great demand for image animation techniques to further
combine generated static images with motion dynamics. In this report, we
propose a practical framework to animate most of the existing personalized
text-to-image models once and for all, saving efforts in model-specific tuning.
At the core of the proposed framework is to insert a newly initialized motion
modeling module into the frozen text-to-image model and train it on video clips
to distill reasonable motion priors. Once trained, by simply injecting this
motion modeling module, all personalized versions derived from the same base
T2I readily become text-driven models that produce diverse and personalized
animated images. We conduct our evaluation on several public representative
personalized text-to-image models across anime pictures and realistic
photographs, and demonstrate that our proposed framework helps these models
generate temporally smooth animation clips while preserving the domain and
diversity of their outputs. Code and pre-trained weights will be publicly
available at https://animatediff.github.io/ .