SG-I2V: 画像から動画生成における自己誘導型軌道制御
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation
November 7, 2024
著者: Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
cs.AI
要旨
画像から動画を生成する手法は、写真のようにリアルな品質を実現しています。しかし、生成された動画内の特定の要素、例えば物体の動きやカメラの動きを調整することは、試行錯誤を繰り返す面倒なプロセスであることが多く、異なるランダムシードで動画を再生成するなどの作業が必要です。最近の技術では、事前学習済みモデルを微調整して、バウンディングボックスや点の軌跡などの条件付け信号に従わせることでこの問題に対処しています。しかし、この微調整プロセスは計算コストが高く、物体の動きに注釈が付いたデータセットが必要であり、そのようなデータセットを入手するのは困難な場合があります。本研究では、SG-I2Vという制御可能な画像から動画を生成するフレームワークを提案します。このフレームワークは自己誘導型であり、事前学習済みの画像から動画を生成する拡散モデルに含まれる知識のみに依存して、微調整や外部の知識を必要とせずにゼロショット制御を提供します。私たちのゼロショット手法は、教師なしベースラインを上回り、視覚品質と動きの忠実度において教師ありモデルと競合する性能を示します。
English
Methods for image-to-video generation have achieved impressive,
photo-realistic quality. However, adjusting specific elements in generated
videos, such as object motion or camera movement, is often a tedious process of
trial and error, e.g., involving re-generating videos with different random
seeds. Recent techniques address this issue by fine-tuning a pre-trained model
to follow conditioning signals, such as bounding boxes or point trajectories.
Yet, this fine-tuning procedure can be computationally expensive, and it
requires datasets with annotated object motion, which can be difficult to
procure. In this work, we introduce SG-I2V, a framework for controllable
image-to-video generation that is self-guidedx2013offering
zero-shot control by relying solely on the knowledge present in a pre-trained
image-to-video diffusion model without the need for fine-tuning or external
knowledge. Our zero-shot method outperforms unsupervised baselines while being
competitive with supervised models in terms of visual quality and motion
fidelity.