AnimateDiff: Анимируйте свои персонализированные модели диффузии для генерации изображений из текста без специальной настройки
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
July 10, 2023
Авторы: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI
Аннотация
С развитием моделей преобразования текста в изображения (например, Stable Diffusion) и соответствующих методов персонализации, таких как DreamBooth и LoRA, каждый может воплотить свое воображение в высококачественные изображения с минимальными затратами. В связи с этим возникает значительный спрос на технологии анимации изображений, которые позволят дополнить статичные сгенерированные изображения динамикой движения. В данном отчете мы предлагаем практическую структуру для анимации большинства существующих персонализированных моделей преобразования текста в изображения, что избавляет от необходимости настройки для каждой конкретной модели. Основой предложенной структуры является внедрение нового модуля моделирования движения в замороженную модель преобразования текста в изображения и его обучение на видеоклипах для извлечения разумных априорных знаний о движении. После обучения, просто добавив этот модуль моделирования движения, все персонализированные версии, созданные на основе одной и той же базовой модели T2I, легко превращаются в текстово-управляемые модели, способные создавать разнообразные и персонализированные анимированные изображения. Мы проводим оценку на нескольких публичных представительных персонализированных моделях преобразования текста в изображения, охватывающих аниме и реалистичные фотографии, и демонстрируем, что предложенная структура помогает этим моделям генерировать временно плавные анимационные клипы, сохраняя при этом специфику и разнообразие их выходных данных. Код и предварительно обученные веса будут доступны по адресу https://animatediff.github.io/.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and
corresponding personalization techniques such as DreamBooth and LoRA, everyone
can manifest their imagination into high-quality images at an affordable cost.
Subsequently, there is a great demand for image animation techniques to further
combine generated static images with motion dynamics. In this report, we
propose a practical framework to animate most of the existing personalized
text-to-image models once and for all, saving efforts in model-specific tuning.
At the core of the proposed framework is to insert a newly initialized motion
modeling module into the frozen text-to-image model and train it on video clips
to distill reasonable motion priors. Once trained, by simply injecting this
motion modeling module, all personalized versions derived from the same base
T2I readily become text-driven models that produce diverse and personalized
animated images. We conduct our evaluation on several public representative
personalized text-to-image models across anime pictures and realistic
photographs, and demonstrate that our proposed framework helps these models
generate temporally smooth animation clips while preserving the domain and
diversity of their outputs. Code and pre-trained weights will be publicly
available at https://animatediff.github.io/ .