何でも再現:モーションテキスト逆変換を用いた意味論的ビデオモーション転送
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
著者: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
要旨
近年、ビデオ生成および編集手法の品質が大幅に向上しています。外観の編集に焦点を当てた技術はいくつか存在しますが、動きに着目した手法はほとんどありません。現在のテキスト、軌跡、またはバウンディングボックスを使用したアプローチは単純な動きに限定されているため、我々は単一の動き参照ビデオを使用して動きを指定します。さらに、テキストからビデオへのモデルではなく、事前学習済みの画像からビデオへのモデルを使用することを提案します。このアプローチにより、対象オブジェクトやシーンの正確な外観と位置を保持し、外観と動きを分離することが可能になります。我々の手法である「モーションテキスト逆変換」は、画像からビデオへのモデルが主に(潜在的な)画像入力から外観を抽出し、クロスアテンションを介して注入されるテキスト/画像埋め込みが主に動きを制御するという観察に基づいています。したがって、我々はテキスト/画像埋め込みトークンを使用して動きを表現します。フレームごとに複数のテキスト/画像埋め込みトークンを含む膨張したモーションテキスト埋め込みを操作することで、高い時間的動きの粒度を実現します。動き参照ビデオで最適化されたこの埋め込みは、さまざまなターゲット画像に適用して、意味的に類似した動きを持つビデオを生成することができます。我々のアプローチは、動き参照ビデオとターゲット画像の間の空間的な整合を必要とせず、さまざまなドメインに一般化でき、全身や顔の再現、無生物の動きやカメラの制御など、さまざまなタスクに適用できます。我々は、意味的ビデオ動き転送タスクにおける我々の手法の有効性を実証し、この文脈で既存の手法を大幅に上回る結果を示しました。
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.Summary
AI-Generated Summary