Magic-Me: アイデンティティ固有のビデオカスタマイズ拡散モデルMagic-Me: Identity-Specific Video Customized Diffusion
特定のID(アイデンティティ)に基づくコンテンツ生成は、生成モデルの分野で大きな関心を集めています。テキストから画像を生成する(T2I)分野では、画像内のIDを制御可能な被写体駆動型コンテンツ生成が大きな進展を遂げています。しかし、これをビデオ生成に拡張する試みは十分に探究されていません。本研究では、シンプルでありながら効果的な被写体ID制御可能なビデオ生成フレームワークを提案し、Video Custom Diffusion(VCD)と名付けました。VCDは、少数の画像で定義された特定の被写体IDを基に、ID情報の抽出を強化し、初期化段階でフレーム間の相関を注入することで、IDを大幅に保持した安定したビデオ出力を実現します。これを実現するために、高品質なID保持に不可欠な3つの新規コンポーネントを提案します:1) プロンプトからセグメンテーションによって切り出されたIDを用いて訓練されたIDモジュール。これにより、ID情報と背景ノイズを分離し、より正確なIDトークンの学習を可能にします。2) 3Dガウシアンノイズプライアを用いたテキストからビデオ(T2V)VCDモジュール。これにより、フレーム間の一貫性を向上させます。3) ビデオからビデオ(V2V)Face VCDおよびTiled VCDモジュール。これにより、顔のぼやけを除去し、ビデオを高解像度にアップスケールします。 シンプルな構造にもかかわらず、VCDが選択された強力なベースラインを上回る安定した高品質なビデオを生成できることを検証するために、広範な実験を行いました。さらに、IDモジュールの転移性により、VCDは公開されているファインチューニング済みのテキストから画像モデルとも良好に連携し、その有用性をさらに高めています。コードはhttps://github.com/Zhen-Dong/Magic-Meで公開されています。