ChatPaper.aiChatPaper

デモンストレーションによるビデオ作成

Video Creation by Demonstration

December 12, 2024
著者: Yihong Sun, Hao Zhou, Liangzhe Yuan, Jennifer J. Sun, Yandong Li, Xuhui Jia, Hartwig Adam, Bharath Hariharan, Long Zhao, Ting Liu
cs.AI

要旨

我々は、新しいビデオ作成体験である「デモンストレーションによるビデオ作成」を探求します。デモンストレーションビデオと異なるシーンのコンテキスト画像が与えられた場合、コンテキスト画像から自然に続く物理的に妥当なビデオを生成し、デモンストレーションからのアクション概念を実行します。この機能を可能にするために、我々はデルタ・ディフュージョンを提案します。これは、教師なし学習によって未ラベルのビデオから条件付き未来フレーム予測を行う自己監督トレーニング手法です。ほとんどの既存のビデオ生成制御が明示的な信号に基づいているのに対し、我々は一般的なビデオに必要な最大限の柔軟性と表現力のために暗黙の潜在制御の形式を採用しています。外観のボトルネック設計を採用したビデオ基盤モデルを活用することで、デモンストレーションビデオからアクションの潜在要素を抽出し、最小限の外観漏洩で生成プロセスを調整します。実証的に、デルタ・ディフュージョンは、人間の選好と大規模な機械評価の両方において関連するベースラインを上回り、インタラクティブな世界シミュレーションに向けた潜在能力を示しています。サンプリングされたビデオ生成結果は、https://delta-diffusion.github.io/ でご覧いただけます。
English
We explore a novel video creation experience, namely Video Creation by Demonstration. Given a demonstration video and a context image from a different scene, we generate a physically plausible video that continues naturally from the context image and carries out the action concepts from the demonstration. To enable this capability, we present delta-Diffusion, a self-supervised training approach that learns from unlabeled videos by conditional future frame prediction. Unlike most existing video generation controls that are based on explicit signals, we adopts the form of implicit latent control for maximal flexibility and expressiveness required by general videos. By leveraging a video foundation model with an appearance bottleneck design on top, we extract action latents from demonstration videos for conditioning the generation process with minimal appearance leakage. Empirically, delta-Diffusion outperforms related baselines in terms of both human preference and large-scale machine evaluations, and demonstrates potentials towards interactive world simulation. Sampled video generation results are available at https://delta-diffusion.github.io/.

Summary

AI-Generated Summary

PDF92December 13, 2024