ChatPaper.aiChatPaper

AnimateDiff: 특별한 튜닝 없이 개인화된 텍스트-이미지 확산 모델에 애니메이션 적용하기

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

July 10, 2023
저자: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI

초록

텍스트-이미지 모델(예: Stable Diffusion)과 DreamBooth, LoRA와 같은 개인화 기술의 발전으로 인해, 이제 누구나 저렴한 비용으로 자신의 상상을 고품질 이미지로 구현할 수 있게 되었습니다. 이에 따라 생성된 정적 이미지에 동적 움직임을 결합하기 위한 이미지 애니메이션 기술에 대한 수요가 크게 증가하고 있습니다. 본 보고서에서는 기존의 대부분의 개인화된 텍스트-이미지 모델을 한 번에 애니메이션화할 수 있는 실용적인 프레임워크를 제안합니다. 이를 통해 모델별 튜닝에 드는 노력을 절약할 수 있습니다. 제안된 프레임워크의 핵심은 고정된 텍스트-이미지 모델에 새로 초기화된 모션 모델링 모듈을 삽입하고, 이를 비디오 클립에 대해 학습시켜 합리적인 모션 사전 지식을 추출하는 것입니다. 일단 학습이 완료되면, 이 모션 모델링 모듈을 단순히 주입함으로써 동일한 기본 T2I 모델에서 파생된 모든 개인화 버전은 텍스트 기반 모델로 변환되어 다양하고 개인화된 애니메이션 이미지를 생성할 수 있습니다. 우리는 애니메이션 그림과 사실적인 사진을 포함한 여러 공개된 대표적인 개인화 텍스트-이미지 모델에 대해 평가를 수행하였으며, 제안된 프레임워크가 이러한 모델들이 출력물의 도메인과 다양성을 유지하면서 시간적으로 부드러운 애니메이션 클립을 생성하는 데 도움을 준다는 것을 입증했습니다. 코드와 사전 학습된 가중치는 https://animatediff.github.io/에서 공개될 예정입니다.
English
With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .
PDF648December 15, 2024