LivePhoto: テキストガイドによるモーション制御を備えた実写画像アニメーション
LivePhoto: Real Image Animation with Text-guided Motion Control
December 5, 2023
著者: Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao
cs.AI
要旨
テキストからビデオ生成における最近の進展にもかかわらず、既存の研究では、合成されたビデオにおいて空間的な内容はテキストによって制御されるものの、時間的な動きは制御されないという問題が通常見過ごされている。この課題に対処するため、本論文では、ユーザーが関心のある画像をテキスト記述でアニメーション化できる実用的なシステム「LivePhoto」を提案する。まず、十分に学習されたテキストから画像生成器(例えばStable Diffusion)が画像を追加の入力として受け取ることを可能にする強力なベースラインを確立する。次に、改良された生成器に時間的モデリングのためのモーションモジュールを装備し、テキストと動きをより良く結びつけるために注意深く設計されたトレーニングパイプラインを提案する。特に、(1) テキストは動きを大まかにしか記述できない(例えば、移動速度に関係なく)こと、(2) テキストには内容と動きの記述の両方が含まれる可能性があることを考慮し、テキストから動きへのマッピングの曖昧さを軽減するために、モーション強度推定モジュールとテキスト再重み付けモジュールを導入する。実験結果は、本手法が動作、カメラの動き、さらには無から新しい内容を生み出す(例えば、空のグラスに水を注ぐ)といった動きに関連するテキスト指示をビデオにうまくデコードできることを示唆している。興味深いことに、提案された強度学習メカニズムのおかげで、本システムはユーザーにテキストに加えてビデオカスタマイズのための追加の制御信号(つまり、モーション強度)を提供する。
English
Despite the recent progress in text-to-video generation, existing studies
usually overlook the issue that only spatial contents but not temporal motions
in synthesized videos are under the control of text. Towards such a challenge,
this work presents a practical system, named LivePhoto, which allows users to
animate an image of their interest with text descriptions. We first establish a
strong baseline that helps a well-learned text-to-image generator (i.e., Stable
Diffusion) take an image as a further input. We then equip the improved
generator with a motion module for temporal modeling and propose a carefully
designed training pipeline to better link texts and motions. In particular,
considering the facts that (1) text can only describe motions roughly (e.g.,
regardless of the moving speed) and (2) text may include both content and
motion descriptions, we introduce a motion intensity estimation module as well
as a text re-weighting module to reduce the ambiguity of text-to-motion
mapping. Empirical evidence suggests that our approach is capable of well
decoding motion-related textual instructions into videos, such as actions,
camera movements, or even conjuring new contents from thin air (e.g., pouring
water into an empty glass). Interestingly, thanks to the proposed intensity
learning mechanism, our system offers users an additional control signal (i.e.,
the motion intensity) besides text for video customization.