ChatPaper.aiChatPaper

AnimateDiff: Анимируйте свои персонализированные модели диффузии для генерации изображений из текста без специальной настройки

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

July 10, 2023
Авторы: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI

Аннотация

С развитием моделей преобразования текста в изображения (например, Stable Diffusion) и соответствующих методов персонализации, таких как DreamBooth и LoRA, каждый может воплотить свое воображение в высококачественные изображения с минимальными затратами. В связи с этим возникает значительный спрос на технологии анимации изображений, которые позволят дополнить статичные сгенерированные изображения динамикой движения. В данном отчете мы предлагаем практическую структуру для анимации большинства существующих персонализированных моделей преобразования текста в изображения, что избавляет от необходимости настройки для каждой конкретной модели. Основой предложенной структуры является внедрение нового модуля моделирования движения в замороженную модель преобразования текста в изображения и его обучение на видеоклипах для извлечения разумных априорных знаний о движении. После обучения, просто добавив этот модуль моделирования движения, все персонализированные версии, созданные на основе одной и той же базовой модели T2I, легко превращаются в текстово-управляемые модели, способные создавать разнообразные и персонализированные анимированные изображения. Мы проводим оценку на нескольких публичных представительных персонализированных моделях преобразования текста в изображения, охватывающих аниме и реалистичные фотографии, и демонстрируем, что предложенная структура помогает этим моделям генерировать временно плавные анимационные клипы, сохраняя при этом специфику и разнообразие их выходных данных. Код и предварительно обученные веса будут доступны по адресу https://animatediff.github.io/.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .
PDF648December 15, 2024