ChatPaper.aiChatPaper

単一動画からの動的コンセプトのパーソナライゼーション

Dynamic Concepts Personalization from Single Videos

February 20, 2025
著者: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
cs.AI

要旨

生成的なテキストから画像へのモデルのパーソナライゼーションは目覚ましい進展を遂げてきましたが、これをテキストから動画へのモデルに拡張するには独特の課題があります。静的な概念とは異なり、テキストから動画へのモデルのパーソナライゼーションは、動的な概念、つまり外見だけでなく動きによっても定義されるエンティティを捉える可能性を秘めています。本論文では、動的な概念をDiffusion Transformers (DiTs)ベースの生成動画モデルにパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介します。私たちのアプローチは、空間的特徴と時間的特徴を明示的に分離しないアーキテクチャ内に時空間的な重み空間を課します。これは2つの主要な段階で実現されます。まず、ビデオから順序付けられていないフレームのセットを使用してLow-Rank Adaptation (LoRA)層を微調整し、時間的な干渉から解放された外見を表すidentity LoRA基底を学習します。第2段階では、identity LoRAを凍結した状態で、その係数をMotion Residualsで拡張し、完全なビデオシーケンス上で微調整することで、動きのダイナミクスを捉えます。私たちのSet-and-Sequenceフレームワークは、動的な概念を動画モデルの出力領域に効果的に埋め込む時空間的な重み空間を実現し、前例のない編集性と構成可能性を可能にするとともに、動的な概念のパーソナライゼーションにおいて新たなベンチマークを確立します。
English
Personalizing generative text-to-image models has seen remarkable progress, but extending this personalization to text-to-video models presents unique challenges. Unlike static concepts, personalizing text-to-video models has the potential to capture dynamic concepts, i.e., entities defined not only by their appearance but also by their motion. In this paper, we introduce Set-and-Sequence, a novel framework for personalizing Diffusion Transformers (DiTs)-based generative video models with dynamic concepts. Our approach imposes a spatio-temporal weight space within an architecture that does not explicitly separate spatial and temporal features. This is achieved in two key stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an unordered set of frames from the video to learn an identity LoRA basis that represents the appearance, free from temporal interference. In the second stage, with the identity LoRAs frozen, we augment their coefficients with Motion Residuals and fine-tune them on the full video sequence, capturing motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal weight space that effectively embeds dynamic concepts into the video model's output domain, enabling unprecedented editability and compositionality while setting a new benchmark for personalizing dynamic concepts.

Summary

AI-Generated Summary

PDF162February 21, 2025