ChatPaper.aiChatPaper

AnimateDiff: 特定のチューニングなしでパーソナライズされたテキストから画像への拡散モデルをアニメーション化

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

July 10, 2023
著者: Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai
cs.AI

要旨

テキストから画像を生成するモデル(例:Stable Diffusion)と、それに対応するDreamBoothやLoRAといったパーソナライゼーション技術の進展により、誰もが手頃なコストで自身の想像力を高品質な画像として具現化できるようになりました。これに伴い、生成された静止画像に動きのダイナミクスを組み合わせるための画像アニメーション技術に対する需要が高まっています。本報告書では、既存のパーソナライズされたテキストから画像を生成するモデルのほとんどを一括してアニメーション化する実用的なフレームワークを提案し、モデルごとのチューニングに要する労力を削減します。提案フレームワークの中核は、凍結されたテキストから画像を生成するモデルに新たに初期化されたモーションモデリングモジュールを挿入し、ビデオクリップでトレーニングして合理的なモーションの事前知識を蒸留することです。一度トレーニングされると、このモーションモデリングモジュールを単に注入するだけで、同じベースのT2Iモデルから派生したすべてのパーソナライズバージョンが、多様でパーソナライズされたアニメーション画像を生成するテキスト駆動モデルになります。私たちは、アニメ絵やリアルな写真を含むいくつかの代表的なパーソナライズされたテキストから画像を生成するモデルに対して評価を行い、提案フレームワークがこれらのモデルが時間的に滑らかなアニメーションクリップを生成しつつ、出力のドメインと多様性を保持することを実証しました。コードと事前トレーニングされた重みはhttps://animatediff.github.io/で公開されます。
English
With the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a great demand for image animation techniques to further combine generated static images with motion dynamics. In this report, we propose a practical framework to animate most of the existing personalized text-to-image models once and for all, saving efforts in model-specific tuning. At the core of the proposed framework is to insert a newly initialized motion modeling module into the frozen text-to-image model and train it on video clips to distill reasonable motion priors. Once trained, by simply injecting this motion modeling module, all personalized versions derived from the same base T2I readily become text-driven models that produce diverse and personalized animated images. We conduct our evaluation on several public representative personalized text-to-image models across anime pictures and realistic photographs, and demonstrate that our proposed framework helps these models generate temporally smooth animation clips while preserving the domain and diversity of their outputs. Code and pre-trained weights will be publicly available at https://animatediff.github.io/ .
PDF648December 15, 2024